CN109542692A - Greenplum集群监控方法和装置 - Google Patents

Greenplum集群监控方法和装置 Download PDF

Info

Publication number
CN109542692A
CN109542692A CN201811395717.5A CN201811395717A CN109542692A CN 109542692 A CN109542692 A CN 109542692A CN 201811395717 A CN201811395717 A CN 201811395717A CN 109542692 A CN109542692 A CN 109542692A
Authority
CN
China
Prior art keywords
node
greenplum
cluster
nodes
standby
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811395717.5A
Other languages
English (en)
Inventor
刘诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhongfu Information Technology Co Ltd
Original Assignee
Nanjing Zhongfu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhongfu Information Technology Co Ltd filed Critical Nanjing Zhongfu Information Technology Co Ltd
Priority to CN201811395717.5A priority Critical patent/CN109542692A/zh
Publication of CN109542692A publication Critical patent/CN109542692A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种Greenplum集群监控方法和装置,涉及计算机领域;该方法应用于Greenplum集群的监控中心,Greenplum集群包括节点,该节点包括主节点和备用节点;该方法包括:与Greenplum集群能正常连接,并且在Greenplum集群中各个节点能正常联通的情况下,判断节点中是否存在死亡节点;如果节点中存在死亡节点,对死亡节点进行恢复,并重启死亡节点;如果节点中不存在死亡节点,判断节点中是否存在主节点与备用节点颠倒;如果节点中存在主节点与备用节点颠倒,对存在颠倒的主节点与备用节点进行切换;重启Greenplum集群并判断Greenplum集群是否恢复。通过对Greenplum集群中的节点进行监控,可以自动检查、自动恢复和自动启动出现问题的节点,提高了Greenplum集群提供服务的正确率和性能。

Description

Greenplum集群监控方法和装置
技术领域
本发明涉及计算机技术领域,尤其是涉及一种Greenplum集群监控方法和装置。
背景技术
Greenplum集群也就是Greenplum数据库,包括了多个节点,本身采用shared-noting(一种分布式计算架构)的大规模并行处理架构,并具有完全可伸缩性、高可用、高性能、性价比高和资源共享等优点。但是在使用的过程中,经常会发生机器关机、断电和断网的情况,出现上述情况时,Greenplum数据库将会出现以下问题:数据库无法正常使用;数据库可以使用,但是由于个别节点故障,导致非故障节点硬件使用率变高,无法达到相应性能。
针对上述数据库在出现问题时,各个节点无法联通,导致数据不一致和检验失败无法按照常规启动各个节点的情况出现。而目前的数据库无法完成对出现故障的节点进行自动恢复、并在恢复后自动重启和对故障进行自动检查的功能。
发明内容
有鉴于此,本发明的目的在于提供一种Greenplum集群监控方法和装置,对Greenplum集群中的故障节点进行自检查、自恢复和自启动,提高了Greenplum集群提供服务的准确性和性能。
第一方面,本发明实施例提供了一种Greenplum集群监控方法,该方法应用于Greenplum集群的监控中心,Greenplum集群包括节点,该节点包括主节点和备用节点;该方法包括:与Greenplum集群能正常连接,并且在Greenplum集群中各个节点能正常联通的情况下,判断节点中是否存在死亡节点;如果节点中存在死亡节点,对死亡节点进行恢复,并重启死亡节点;如果节点中不存在死亡节点,判断节点中是否存在主节点与备用节点颠倒;如果节点中存在主节点与备用节点颠倒,对存在颠倒的主节点与备用节点进行切换;重启Greenplum集群并判断Greenplum集群是否恢复。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,上述方法还包括:获取Greenplum集群的状态表格,状态表格包括当前节点的角色是否颠倒、当前节点是否是死亡节点和当前节点的端口。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,上述判断节点中是否存在死亡节点的步骤,包括:通过查询状态表格;判断当前节点是否是死亡节点。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,上述对死亡节点进行恢复,并重启死亡节点的步骤,包括:当死亡节点为主节点时,发送第一指令至Greenplum集群,以使Greenplum集群对死亡节点进行恢复;重启死亡节点。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,上述判断节点中是否存在主节点与备用节点颠倒的步骤,包括:通过查询状态表格;判断当前节点的角色是否存在主节点与备用节点颠倒。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,上述对存在颠倒的主节点与备用节点进行切换的步骤,包括:发送第二指令至Greenplum集群,以使Greenplum集群对存在颠倒的主节点与备用节点进行切换。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,上述重启Greenplum集群并判断Greenplum集群是否恢复的步骤,包括:重启Greenplum集群,生成更新后的Greenplum集群的状态表格,并通过查询更新后的Greenplum集群的状态表格,判断Greenplum集群是否恢复。
第二方面,本发明实施例提供了一种Greenplum集群监控装置,该装置设置于Greenplum集群的监控中心,Greenplum集群包括节点,该节点包括主节点和备用节点;该装置包括:第一判断模块,用于与Greenplum集群能正常连接,并且在Greenplum集群中各个节点能正常联通的情况下,判断节点中是否存在死亡节点;恢复模块,用于如果节点中存在死亡节点,对死亡节点进行恢复,并重启死亡节点;第二判断模块,用于如果节点中不存在死亡节点,判断节点中是否存在主节点与备用节点颠倒;切换模块,用于如果节点中存在主节点与备用节点颠倒,对存在颠倒的主节点与备用节点进行切换;检查模块,用于重启Greenplum集群并判断Greenplum集群是否恢复。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,上述装置还包括:获取模块,用于获取Greenplum集群的状态表格,状态表格包括当前节点的角色是否颠倒、当前节点是否是死亡节点和当前节点的端口。
结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第二种可能的实施方式,其中,上述第一判断模块还用于:通过查询状态表格;判断当前节点是否是死亡节点。
本发明实施例提供了一种Greenplum集群监控方法和装置,该方法应用于Greenplum集群的监控中心,Greenplum集群包括节点,该节点包括主节点和备用节点;该方法包括:与Greenplum集群能正常连接,并且在Greenplum集群中各个节点能正常联通的情况下,判断节点中是否存在死亡节点;如果节点中存在死亡节点,对死亡节点进行恢复,并重启死亡节点;如果节点中不存在死亡节点,判断节点中是否存在主节点与备用节点颠倒;如果节点中存在主节点与备用节点颠倒,对存在颠倒的主节点与备用节点进行切换;重启Greenplum集群并判断Greenplum集群是否恢复。通过对Greenplum集群中的节点进行监控,可以自动检查、自动恢复和自动启动出现问题的节点,提高了Greenplum集群提供服务的正确率和性能。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种Greenplum集群监控方法的流程图;
图2为本发明实施例提供的另一种Greenplum集群监控方法的流程图;
图3为本发明实施例提供的一种解决Greenplum集群异常重启的流程图;
图4为本发明实施例提供的一种Greenplum集群的结构示意图;
图5为本发明实施例提供的一种Greenplum集群监控装置的结构示意图;
图6为本发明实施例提供的一种Greenplum集群的监控中心的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前的Greenplum集群也就是Greenplum数据库本身采用shared-nothing的大规模并行处理架构,并具有完全可伸缩性、高可用、高性能、性价比高和资源共享等优点。如图4所示,该图为本发明实施例提供的一种Greenplum集群的结构示意图,该Greenplum集群包括一个主节点和多个备用节点,主节点与备用节点通过互联协议联通。
但是在使用的过程中,经常会发生机器关机、断电和断网的情况,出现上述情况时,Greenplum数据库将会出现以下问题:数据库无法正常使用;数据库可以使用,但是由于个别节点故障,导致非故障节点硬件使用率变高,无法达到相应性能。
在上述实际情况中,Greenplum数据库本身并无严重问题,而是在关机、断电和断网后各个节点之间无法联通,导致数据不一致,造成检测失败而无法按照常规情况启动各个节点。基于此,本发明实施例提供的一种Greenplum集群监控方法和装置,对Greenplum集群中的故障节点进行自检查、自恢复和自启动,提高了Greenplum集群提供服务的准确性和性能。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种Greenplum集群监控方法进行详细介绍。
实施例一
本发明实施例提供了一种Greenplum集群监控方法,该方法应用于Greenplum集群的监控中心,该Greenplum集群包括节点,该节点包括主节点和备用节点;如图1所示,图1为本发明实施例提供的一种Greenplum集群监控方法的流程图;该方法包括如下步骤:
步骤S102,与Greenplum集群能正常连接,并且在Greenplum集群中各个节点能正常联通的情况下;
Greenplum集群的监控中心在监控Greenplum集群时,需要先与Greenplum集群的监控中心连接,一般连接Greenplum集群方法为在Greenplum集群的监控中心输入一条连接指令,如果Greenplum集群的监控中心与Greenplum集群连接成功会显示连接成功的回复,如果Greenplum集群的监控中心与Greenplum集群连接失败会显示连接失败的回复;如果Greenplum集群的监控中心与Greenplum集群连接失败,则进入Greenplum集群的异常重启;如果Greenplum集群的监控中心与Greenplum集群连接成功,则进入Greenplum集群的常规检测。
进一步地,如图3所示,该图为本发明实施例提供的一种解决Greenplum集群异常重启的流程图;该方法包括:
步骤S302,判断各个节点是否可以正常联通;如果是,执行步骤S304;如果否,执行步骤S306;
步骤S304,检测当前节点状态;
步骤S306,等待各个节点联通;
步骤S308,判断Greenplum集群是否启动;如果是,执行步骤S310;如果否,执行步骤S312;
步骤S310,重启Greenplum集群;
步骤S312,启动Greenplum集群。
结合图3步骤实施例具体可为,在Greenplum集群异常重启中,首先需要判断各个节点是否可以正常联通,该联通方法包括使用ping命令,例如,可以在主节点输入一个备用节点的IP地址检测是否有数据通讯,以判断网络是否联通;也可以使用备用节点输入另一个备用节点的IP地址;如果两个节点之间出现网络联通问题,输入ping命令并按回车即可看到详细的联通问题;如果各个节点中存在不联通的情况,可能是个别节点未完全启动,则等待各个节点启动并ping通;如果各个节点能够正常联通,则可通过Gpstate检测当前各个节点的状态包括Greenplum集群是否启动,如果Greenplum集群启动,则重启Greenplum集群;如果Greenplum集群没有启动,则启动Greenplum集群;其中,Gpstate文件是GuidanceAutomation开发包中的一部分,guidance package(向导包)是伴随着解决方案作为约束状态保存在外部文件夹中,一般是与solution放在一起,命名为solution的名字加上后缀为.gpState的文件。
在Greenplum集群的常规检测中,先判断各个节点是否联通,其方法如上述所述,在此不再赘述,本实施例中下述步骤为描述Greenplum集群的常规检测的具体流程。
步骤S104,判断节点中是否存在死亡节点;如果是,执行步骤S106;如果否,执行步骤S108;
集群是一组相互独立的、通过高速网络互联的计算机,它们作为一个整体向用户提供一组网络资源,这些单个的计算机系统就是集群的节点。而死亡节点为集群中某个计算机系统因为某种原因出现故障而无法正常使用,该原因可能是硬件或内部软件出现问题,而出现节点中的数据不正确或者干脆无法使用该节点。所以集群中有一个主节点和多个备用节点,可以看出,主节点与备用节点中的数据一样,备用节点可以说是主节点的副本,备用节点在平时并不工作;当主节点出现故障时,被挑选出来取代主节点的备用节点此时才会动作。
步骤S106,对死亡节点进行恢复,并重启死亡节点;
当Greenplum集群的监控中心检测出Greenplum集群中有某个节点出现故障为死亡节点时,对死亡节点进行恢复,而本发明可进行自动恢复无需人工,即Greenplum集群的监控中心检测出Greenplum集群中出现死亡节点时,可自动对死亡节点进行恢复,该方法不需要人工进行干预,减小了数据错误率、节省了人力并提高了效率,其中,该死亡节点包括主节点或备用节点。
步骤S108,判断节点中是否存在主节点与备用节点颠倒;如果是,执行步骤S110;如果否,执行步骤S112;
如果Greenplum集群中包括A节点、B节点和C节点,其中A节点设置为主节点,B节点和C节点为备用节点;而此时真正工作的主节点为B节点,Greenplum集群的监控中心还默认A节点为主节点,发送各种指令至A节点,而真正工作的B节点却没有接收到Greenplum集群的监控中心发送的指令信息,这是Greenplum集群就会出现错误,所以Greenplum集群的监控中心需要判断Greenplum集群是否出现了主节点与备用节点颠倒。
步骤S110,对存在颠倒的主节点与备用节点进行切换;
上述过程中都是Greenplum集群的监控中心自动进行检测、自动恢复和自动启动Greenplum集群,当Greenplum集群的监控中心检测到Greenplum集群中出现主节点与备用节点颠倒的情况,可自动对存在颠倒的主节点与备用节点进行切换。
步骤S112,重启Greenplum集群并判断Greenplum集群是否恢复。
当上述Greenplum集群中的故障修复后,重启Greenplum集群,Greenplum集群可被重新配置节点的状态,在重启Greenplum集群后Greenplum集群的监控中心可按照上述步骤再重新检测Greenplum集群的节点状态并根据检测的结果判断Greenplum集群是否恢复。
本发明实施例中,上述方法应用于Greenplum集群的监控中心,Greenplum集群包括节点,该节点包括主节点和备用节点;该方法包括:与Greenplum集群能正常连接,并且在Greenplum集群中各个节点能正常联通的情况下,判断节点中是否存在死亡节点;如果节点中存在死亡节点,对死亡节点进行恢复,并重启死亡节点;如果节点中不存在死亡节点,判断节点中是否存在主节点与备用节点颠倒;如果节点中存在主节点与备用节点颠倒,对存在颠倒的主节点与备用节点进行切换;重启Greenplum集群并判断Greenplum集群是否恢复。通过对Greenplum集群中的节点进行监控,可以自动检查、自动恢复和自动启动出现问题的节点,提高了Greenplum集群提供服务的正确率和性能。
实施例二
本发明实施例还提供了另一种Greenplum集群监控方法,该方法在实施例一的基础上实现,如图2所示,该图为本发明实施例提供的另一种Greenplum集群监控方法的流程图;该方法包括如下步骤:
步骤S202,与Greenplum集群能正常连接,并且在Greenplum集群中各个节点能正常联通的情况下;
步骤S204,获取Greenplum集群的状态表格;
Greenplum集群在正常运行时,会生成一个状态表格,该状态表格为数据库表格为gp_segment_configuration,该状态表格的属性包括当前节点的角色、当前节点的状态包括是否是死亡节点、当前节点的端口和当前节点行为等;具体地,Greenplum集群的监控中心在遍历Greenplum集群中的节点时,会把每个节点的状态展示在状态表格中,包括检测当前节点的端口号、当前节点是否为故障节点、当前节点的角色和当前节点是否在恢复。所以,我们很容易在状态表格中看出当前节点对应端口号的状态,该端口号指的物理存在端口,用于区分主节点和备用节点。
步骤S206,通过查询状态表格,判断当前节点是否是死亡节点;如果是,执行步骤S208;如果否,执行步骤S212;
在遍历节点时,如果检测到当前节点存在故障,该故障包括当前节点为死亡节点和当前节点为主节点与备用节点颠倒,并把出现故障的端口号记录在状态表格,所以可通过SQL(Structured Query Language,结构化查询语句)查询当前节点的状态;如果通过查询状态表格,可判定当前节点是否为死亡节点。
步骤S208,当死亡节点为主节点时,发送第一指令至Greenplum集群,以使Greenplum集群对死亡节点进行恢复;
如果通过查询状态表格得出死亡节点为主节点时,发送第一指令至Greenplum集群,以使Greenplum集群对该死亡节点进行恢复;其中,该指令可以是gprecoverseg,在通过该指令进行恢复时不需要停机也不影响Greenplum集群正常使用。
或者,如果通过查询状态表格得出死亡节点为备用节点时,Greenplum集群的监控中心可自行进行恢复,不需要通过发送第一指令至Greenplum集群来恢复死亡节点,上述恢复都是自发的不需要人工进行干预。
步骤S210,重启死亡节点;
步骤S212,通过查询状态表格,判断当前节点的角色是否存在主节点与备用节点颠倒;如果是,执行步骤S214;如果否,执行步骤S216;
在遍历节点时,如果检测到当前节点存在故障,该故障包括当前节点为死亡节点和当前节点为主节点与备用节点颠倒,并把出现故障的端口号记录在状态表格,所以可通过SQL(Structured Query Language,结构化查询语句)查询当前节点的状态;如果通过查询状态表格,可判定当前节点的角色是否存在主节点与备用节点颠倒。
步骤S214,发送第二指令至Greenplum集群,以使Greenplum集群对存在颠倒的主节点与备用节点进行切换;
如果当前节点的角色存在主节点与备用节点颠倒,发送第二指令至Greenplum集群,以使Greenplum集群对存在颠倒的主节点与备用节点进行切换;其中,该指令可以是gprecoverseg-r,在通过该指令进行恢复时不需要停机也不影响Greenplum集群正常使用。
步骤S216,重启Greenplum集群,生成更新后的Greenplum集群的状态表格,并通过查询更新后的Greenplum集群的状态表格,判断Greenplum集群是否恢复。
在对上述的故障进行恢复后,重启上述Greenplum集群,上述的状态表格会生成更新后的Greenplum集群的状态表格,通过使用gpstate-s指令来观察Greenplum集群是否将故障恢复,如果全部恢复会全部显示Synchronized时,表示恢复完成;如果上述Greenplum集群未恢复,则再做一遍故障检测,对再一次发生的故障进行恢复,循环上述步骤。
本发明实施例中,通过SQL语句查询状态表格可判断当前节点是否为死亡节点或当前节点存在主节点与备用节点颠倒,对发生故障的节点进行恢复并判断Greenplum集群是否恢复;上述过程完全是自动进行无需人工干预,节省人力并提高效率,Greenplum集群数据的正确性可得到保证。
实施例三
对应于实施例一与实施例二的方法实施例,本发明实施例还提供了一种Greenplum集群监控装置,如图5所示,该图为本发明实施例提供的一种Greenplum集群监控装置的结构示意图,该装置设置于Greenplum集群的监控中心,该Greenplum集群包括节点,该节点包括主节点和备用节点;该装置包括:
第一判断模块50,用于与Greenplum集群能正常连接,并且在Greenplum集群中各个节点能正常联通的情况下,判断节点中是否存在死亡节点;
恢复模块51,用于如果节点中存在死亡节点,对死亡节点进行恢复,并重启死亡节点;
第二判断模块52,用于如果节点中不存在死亡节点,判断节点中是否存在主节点与备用节点颠倒;
切换模块53,用于如果节点中存在主节点与备用节点颠倒,对存在颠倒的主节点与备用节点进行切换;
检查模块54,用于重启Greenplum集群并判断Greenplum集群是否恢复。
上述装置还包括:
获取模块:用于获取Greenplum集群的状态表格,状态表格包括当前节点的角色是否颠倒、当前节点是否是死亡节点和当前节点的端口。
上述第一判断模块还用于:通过查询状态表格;判断当前节点是否是死亡节点。
本发明实施例中,上述装置设置于Greenplum集群的监控中心,Greenplum集群包括节点,该节点包括主节点和备用节点;该方法包括:与Greenplum集群能正常连接,并且在Greenplum集群中各个节点能正常联通的情况下,判断节点中是否存在死亡节点;如果节点中存在死亡节点,对死亡节点进行恢复,并重启死亡节点;如果节点中不存在死亡节点,判断节点中是否存在主节点与备用节点颠倒;如果节点中存在主节点与备用节点颠倒,对存在颠倒的主节点与备用节点进行切换;重启Greenplum集群并判断Greenplum集群是否恢复。通过对Greenplum集群中的节点进行监控,可以自动检查、自动恢复和自动启动出现问题的节点,提高了Greenplum集群提供服务的正确率和性能。
本发明实施例提供的Greenplum集群监控装置,与上述实施例提供的Greenplum集群监控方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例四
如图6所示,本发明实施例还提供一种Greenplum集群的监控中心100,包括:处理器400,存储器401,总线402和通信接口403,处理器400、通信接口403和存储器401通过总线402连接;处理器400用于执行存储器401中存储的可执行模块,例如计算机程序。
其中,存储器401可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口403(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线402可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器401用于存储程序,处理器400在接收到执行指令后,执行程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器400中,或者由处理器400实现。
处理器400可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器400中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器400可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401,处理器400读取存储器401中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的进行Greenplum集群监控方法和装置的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种Greenplum集群监控方法,其特征在于,所述方法应用于Greenplum集群的监控中心,所述Greenplum集群包括节点,所述节点包括主节点和备用节点;所述方法包括:
与所述Greenplum集群能正常连接,并且在所述Greenplum集群中各个所述节点能正常联通的情况下,判断所述节点中是否存在死亡节点;
如果所述节点中存在死亡节点,对所述死亡节点进行恢复,并重启所述死亡节点;
如果所述节点中不存在死亡节点,判断所述节点中是否存在主节点与备用节点颠倒;
如果所述节点中存在主节点与备用节点颠倒,对存在颠倒的主节点与备用节点进行切换;
重启所述Greenplum集群并判断所述Greenplum集群是否恢复。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述Greenplum集群的状态表格,所述状态表格包括当前节点的角色是否颠倒、当前节点是否是死亡节点和当前节点的端口。
3.根据权利要求2所述的方法,其特征在于,所述判断所述节点中是否存在死亡节点的步骤,包括:
通过查询所述状态表格,判断所述当前节点是否是死亡节点。
4.根据权利要求1所述的方法,其特征在于,所述对所述死亡节点进行恢复,并重启所述死亡节点的步骤,包括:
发送第一指令至所述Greenplum集群,以使所述Greenplum集群对所述死亡节点进行恢复;
重启所述死亡节点。
5.根据权利要求2所述的方法,其特征在于,所述判断所述节点中是否存在主节点与备用节点颠倒的步骤,包括:
通过查询所述状态表格,判断所述当前节点的角色是否存在主节点与备用节点颠倒。
6.根据权利要求1所述的方法,其特征在于,所述对存在颠倒的主节点与备用节点进行切换的步骤,包括:
发送第二指令至所述Greenplum集群,以使所述Greenplum集群对存在颠倒的主节点与备用节点进行切换。
7.根据权利要求2所述的方法,其特征在于,所述重启所述Greenplum集群并判断所述Greenplum集群是否恢复的步骤,包括:
重启所述Greenplum集群,生成更新后的Greenplum集群的状态表格,并通过查询所述更新后的Greenplum集群的状态表格,判断所述Greenplum集群是否恢复。
8.一种Greenplum集群监控装置,其特征在于,所述装置设置于Greenplum集群的监控中心,所述Greenplum集群包括节点,所述节点包括主节点和备用节点;所述装置包括:
第一判断模块,用于与所述Greenplum集群能正常连接,并且在所述Greenplum集群中各个所述节点能正常联通的情况下,判断所述节点中是否存在死亡节点;
恢复模块,用于如果所述节点中存在死亡节点,对所述死亡节点进行恢复,并重启所述死亡节点;
第二判断模块,用于如果所述节点中不存在死亡节点,判断所述节点中是否存在主节点与备用节点颠倒;
切换模块,用于如果所述节点中存在主节点与备用节点颠倒,对存在颠倒的主节点与备用节点进行切换;
检查模块,用于重启所述Greenplum集群并判断所述Greenplum集群是否恢复。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取所述Greenplum集群的状态表格,所述状态表格包括当前节点的角色是否颠倒、当前节点是否是死亡节点和当前节点的端口。
10.根据权利要求9所述的装置,其特征在于,所述第一判断模块还用于:
通过查询所述状态表格;
判断所述当前节点是否是死亡节点。
CN201811395717.5A 2018-11-21 2018-11-21 Greenplum集群监控方法和装置 Pending CN109542692A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811395717.5A CN109542692A (zh) 2018-11-21 2018-11-21 Greenplum集群监控方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811395717.5A CN109542692A (zh) 2018-11-21 2018-11-21 Greenplum集群监控方法和装置

Publications (1)

Publication Number Publication Date
CN109542692A true CN109542692A (zh) 2019-03-29

Family

ID=65849006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811395717.5A Pending CN109542692A (zh) 2018-11-21 2018-11-21 Greenplum集群监控方法和装置

Country Status (1)

Country Link
CN (1) CN109542692A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124755A (zh) * 2019-12-06 2020-05-08 中国联合网络通信集团有限公司 集群节点的故障恢复方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020007468A1 (en) * 2000-05-02 2002-01-17 Sun Microsystems, Inc. Method and system for achieving high availability in a networked computer system
CN103036744A (zh) * 2012-12-19 2013-04-10 北京搜房网络技术有限公司 一种监控多机分布式复制块设备的方法及装置
CN104461823A (zh) * 2014-12-03 2015-03-25 浪潮集团有限公司 一种自动恢复集群中意外宕机节点的方法
CN106341454A (zh) * 2016-08-23 2017-01-18 世纪龙信息网络有限责任公司 跨机房多活分布式数据库管理系统和方法
CN108599996A (zh) * 2018-04-03 2018-09-28 武汉斗鱼网络科技有限公司 数据库集群的故障处理方法、装置及终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020007468A1 (en) * 2000-05-02 2002-01-17 Sun Microsystems, Inc. Method and system for achieving high availability in a networked computer system
CN103036744A (zh) * 2012-12-19 2013-04-10 北京搜房网络技术有限公司 一种监控多机分布式复制块设备的方法及装置
CN104461823A (zh) * 2014-12-03 2015-03-25 浪潮集团有限公司 一种自动恢复集群中意外宕机节点的方法
CN106341454A (zh) * 2016-08-23 2017-01-18 世纪龙信息网络有限责任公司 跨机房多活分布式数据库管理系统和方法
CN108599996A (zh) * 2018-04-03 2018-09-28 武汉斗鱼网络科技有限公司 数据库集群的故障处理方法、装置及终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124755A (zh) * 2019-12-06 2020-05-08 中国联合网络通信集团有限公司 集群节点的故障恢复方法、装置、电子设备及存储介质
CN111124755B (zh) * 2019-12-06 2023-08-15 中国联合网络通信集团有限公司 集群节点的故障恢复方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11275641B2 (en) Automatic correlation of dynamic system events within computing devices
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
WO2019223062A1 (zh) 系统异常的处理方法和系统
WO2021243524A1 (zh) 网络拓扑构建方法、装置和计算机可读介质
CN109120522B (zh) 一种多路径状态监测方法及装置
CN111625419B (zh) 一种日志采集方法、系统、设备及计算机可读存储介质
CN102638375A (zh) 一种网络故障识别方法及装置
CN113760652B (zh) 基于应用的全链路监控的方法、系统、设备和存储介质
CN111181800A (zh) 测试数据处理方法、装置、电子设备及存储介质
CN112529223A (zh) 一种设备故障报修方法、装置、服务器及储存介质
CN112579007A (zh) 一种存储全链路的获取方法、装置及电子设备
US10169138B2 (en) System and method for self-healing a database server in a cluster
CN114885014A (zh) 一种外场设备状态的监测方法、装置、设备及介质
CN109542692A (zh) Greenplum集群监控方法和装置
CN111404780B (zh) 一种远程直接存储器访问网络集群的功能测试方法和装置
CN111988169A (zh) 一种云平台异常磁盘清理修复的方法、系统、设备及介质
CN112637010A (zh) 一种设备的检查方法及装置
CN108650134A (zh) 网络故障定位的方法、装置及电子设备
CN106612213B (zh) 设备测试方法及装置
CN109101595B (zh) 一种信息查询方法、装置、设备及计算机可读存储介质
CN115705259A (zh) 故障处理方法、相关设备及存储介质
CN111885159B (zh) 数据采集方法、装置、电子设备及存储介质
CN112994947A (zh) 一种网络运维方法、装置、存储介质及电子设备
CN105786865B (zh) 一种检索系统故障分析方法及装置
CN110096555B (zh) 一种分布式系统的表匹配处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190329

WD01 Invention patent application deemed withdrawn after publication