CN105141456A - 一种高可用集群资源监控方法 - Google Patents

一种高可用集群资源监控方法 Download PDF

Info

Publication number
CN105141456A
CN105141456A CN201510525461.5A CN201510525461A CN105141456A CN 105141456 A CN105141456 A CN 105141456A CN 201510525461 A CN201510525461 A CN 201510525461A CN 105141456 A CN105141456 A CN 105141456A
Authority
CN
China
Prior art keywords
node
cluster
monitor
heartbeat
software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510525461.5A
Other languages
English (en)
Inventor
于丽
赵瑞东
吴登勇
王则陆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Chaoyue Numerical Control Electronics Co Ltd
Original Assignee
Shandong Chaoyue Numerical Control Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Chaoyue Numerical Control Electronics Co Ltd filed Critical Shandong Chaoyue Numerical Control Electronics Co Ltd
Priority to CN201510525461.5A priority Critical patent/CN105141456A/zh
Publication of CN105141456A publication Critical patent/CN105141456A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Abstract

本发明特别涉及一种高可用集群资源监控方法。该高可用集群资源监控方法,所述基于国产平台的集群节点上修改、编译并安装有心跳软件,集群资源层软件和集群图形化管理软件;同时,在基于国产平台的集群中设置主节点,备份节点,管理节点和监控节点,所述备份节点随时和主节点保持信息同步,当主节点发生宕机故障时,所述备份节点及时接管主节点工作。该高可用集群资源监控方法,使备份节点随时和主节点保持信息同步,当主节点发生宕机故障时,备份节点能够及时接管主节点工作,能够保障国产平台上各种关键应用的信息安全和不间断持续运营,实现永续经营的良性循环。

Description

一种高可用集群资源监控方法
技术领域
本发明涉及linux操作系统下高可用集群资源的监控技术领域,特别涉及一种高可用集群资源监控方法。
背景技术
信息化建设的不断推进,各个企事业单位的活动越来越多的依赖于其关键的业务信息系统,这些业务信息系统对整个机构的运营和发展起着至关重要的作用,一旦发生宕机故障或应用停机,将给机构带来巨大的经济损失。
可见,对那些需要保障信息安全和提供不间断的信息服务的机构来说,业务系统的容错性和不间断性显得尤为重要。如何保障各种关键应用持续运营,达到永续经营的良性循环,已成为当今企事业单位和IT领域急需解决的关键问题,计算资源的高可用变得越来越重要。尤其目前随着国产化的推进,在国产平台上实现高可用集群变得越来越重要。
针对国产平台上高可用集群的管理,为了实现不间断信息服务,保障信息安全,本发明提出了一种高可用集群资源监控方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种安全稳定、高效的高可用集群资源监控方法。
本发明是通过如下技术方案实现的:
一种高可用集群资源监控方法,其特征在于:所述基于国产平台的集群节点上修改、编译并安装有心跳软件,集群资源层软件和集群图形化管理软件;同时,在基于国产平台的集群中设置主节点,备份节点,管理节点和监控节点,所述备份节点随时和主节点保持信息同步,当主节点发生宕机故障时,所述备份节点及时接管主节点工作;所述管理节点负责收集各监控节点的发送的状态信息,将状态变化信息发送给其他各节点,还根据整个集群中的负载情况进行决策处理,通知实施引擎进行迁移;所述监控节点负责接收状态信息。
所述图形化集群管理软件用于在主节点服务器上部署并启动国产平台的浮动IP、Apache服务、MySql数据库服务、IP-San存储服务等服务。
所述高可用集群即支持单活-主从模式,又支持双活-主从模式,所述单活-主从模式是指主节点处于工作状态,而备用节点处于备用状态,所述双活-主从模式是指主节点和备用节点均处于工作状态。
本发明高可用集群资源监控方法,包括以下步骤:
(1)在国产平台上修改、编译、安装心跳软件并进行,集群管理软件和图形化集群管理软件,使其可以运行在国产平台上;
(2)修改集群配置文件/etc/hosts,添加主节点,备份节点以及其IP等信息;
(3)配置ssh,在本地创建密钥,并在备份节点上安装ssh密钥;
(4)主节点上心跳软件发出心跳,修改主节点的配置文件,并将配置文件传送至备份节点;
(5)所述监控节点监听到国产平台主节点上心跳软件发出的心跳,当所述监控节点监听到心跳时,开始监控状态信息,否则通知所述备份节点接管主节点工作;
(6)当所述监控节点监测到状态信息变更时,将状态信息保存到该节点上的CIB文件中,并将状态信息发送给管理节点;当所述监控节点没有监测到状态信息变更时,则返回步骤(5),监听心跳;
(7)所述管理节点接收到监控节点的发送的状态信息后,保存变更信息,并打包发送给各节点将状态变化信息发送给其他各节点,并根据整个集群中的负载情况进行决策处理,通知实施引擎进行迁移;
(8)所述监控节点返回步骤(5),继续监听心跳,否则结束进程。
本发明的有益效果是:该高可用集群资源监控方法,使备份节点随时和主节点保持信息同步,当主节点发生宕机故障时,备份节点能够及时接管主节点工作,能够保障国产平台上各种关键应用的信息安全和不间断持续运营,实现永续经营的良性循环。
附图说明
附图1为高可用集群资源监控流程示意图;
附图2为本发明单活模式集群部署示意图;
附图3为本发明N+M多节点集群部署示意图。
具体实施方式
附图为本发明的一种具体实施例,下面结合附图对本发明进行详细说明。
该高可用集群资源监控方法,所述基于国产平台的集群节点上修改、编译并安装有心跳软件,集群资源层软件和集群图形化管理软件;同时,在基于国产平台的集群中设置主节点,备份节点,管理节点和监控节点,所述备份节点随时和主节点保持信息同步,当主节点发生宕机故障时,所述备份节点及时接管主节点工作;所述管理节点负责收集各监控节点的发送的状态信息,将状态变化信息发送给其他各节点,还根据整个集群中的负载情况进行决策处理,通知实施引擎进行迁移;所述监控节点负责接收状态信息。
所述图形化集群管理软件用于在主节点服务器上部署并启动国产平台的浮动IP、Apache服务、MySql数据库服务、IP-San存储服务等服务。
所述高可用集群即支持单活-主从模式,又支持双活-主从模式,所述单活-主从模式是指主节点处于工作状态,而备用节点处于备用状态,所述双活-主从模式是指主节点和备用节点均处于工作状态。
本发明高可用集群资源监控方法,包括以下步骤:
(1)在国产平台上修改、编译、安装心跳软件并进行,集群管理软件和图形化集群管理软件,使其可以运行在国产平台上;
(2)修改集群配置文件/etc/hosts,添加主节点,备份节点以及其IP等信息;
(3)配置ssh,在本地创建密钥,并在备份节点上安装ssh密钥;
(4)主节点上心跳软件发出心跳,修改主节点的配置文件,并将配置文件传送至备份节点;
(5)所述监控节点监听到国产平台主节点上心跳软件发出的心跳,当所述监控节点监听到心跳时,开始监控状态信息,否则通知所述备份节点接管主节点工作;
(6)当所述监控节点监测到状态信息变更时,将状态信息保存到该节点上的CIB文件中,并将状态信息发送给管理节点;当所述监控节点没有监测到状态信息变更时,则返回步骤(5),监听心跳;
(7)所述管理节点接收到监控节点的发送的状态信息后,保存变更信息,并打包发送给各节点将状态变化信息发送给其他各节点,并根据整个集群中的负载情况进行决策处理,通知实施引擎进行迁移;
(8)所述监控节点返回步骤(5),继续监听心跳,否则结束进程。
在国产平台上,实现高可用集群资源监控,主要是监控各集群节点的状态及集群节点上的浮动IP、Apache服务、Drbd存储、IP-San存储、Orcal数据库、Mysql数据库等资源状态。
所述高可用集群采用单活-主从模式,包括2台国产服务器和1个共享存储,1台国产服务器作为主节点,1台国产服务器作为从节点。所述单活模式(Active/Passive)集群可改为双活(Active/Active),如附图3所示,还支持N+1和N+M等多节点集群备份模式。

Claims (4)

1.一种高可用集群资源监控方法,其特征在于:所述基于国产平台的集群节点上修改、编译并安装有心跳软件,集群资源层软件和集群图形化管理软件;同时,在基于国产平台的集群中设置主节点,备份节点,管理节点和监控节点,所述备份节点随时和主节点保持信息同步,当主节点发生宕机故障时,所述备份节点及时接管主节点工作;所述管理节点负责收集各监控节点的发送的状态信息,将状态变化信息发送给其他各节点,还根据整个集群中的负载情况进行决策处理,通知实施引擎进行迁移;所述监控节点负责接收状态信息。
2.根据权利要求1所述的高可用集群资源监控方法,其特征在于:所述图形化集群管理软件用于在主节点服务器上部署并启动国产平台的浮动IP、Apache服务、MySql数据库服务、IP-San存储服务等服务。
3.根据权利要求1所述的高可用集群资源监控方法,其特征在于:所述高可用集群即支持单活-主从模式,又支持双活-主从模式,所述单活-主从模式是指主节点处于工作状态,而备用节点处于备用状态,所述双活-主从模式是指主节点和备用节点均处于工作状态。
4.根据权利要求1所述的高可用集群资源监控方法,其特征在于包括以下步骤:
(1)在国产平台上修改、编译、安装心跳软件并进行,集群管理软件和图形化集群管理软件,使其可以运行在国产平台上;
(2)修改集群配置文件/etc/hosts,添加主节点,备份节点以及其IP等信息;
(3)配置ssh,在本地创建密钥,并在备份节点上安装ssh密钥;
(4)主节点上心跳软件发出心跳,修改主节点的配置文件,并将配置文件传送至备份节点;
(5)所述监控节点监听到国产平台主节点上心跳软件发出的心跳,当所述监控节点监听到心跳时,开始监控状态信息,否则通知所述备份节点接管主节点工作;
(6)当所述监控节点监测到状态信息变更时,将状态信息保存到该节点上的CIB文件中,并将状态信息发送给管理节点;当所述监控节点没有监测到状态信息变更时,则返回步骤(5),监听心跳;
(7)所述管理节点接收到监控节点的发送的状态信息后,保存变更信息,并打包发送给各节点将状态变化信息发送给其他各节点,并根据整个集群中的负载情况进行决策处理,通知实施引擎进行迁移;
(8)所述监控节点返回步骤(5),继续监听心跳,否则结束进程。
CN201510525461.5A 2015-08-25 2015-08-25 一种高可用集群资源监控方法 Pending CN105141456A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510525461.5A CN105141456A (zh) 2015-08-25 2015-08-25 一种高可用集群资源监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510525461.5A CN105141456A (zh) 2015-08-25 2015-08-25 一种高可用集群资源监控方法

Publications (1)

Publication Number Publication Date
CN105141456A true CN105141456A (zh) 2015-12-09

Family

ID=54726674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510525461.5A Pending CN105141456A (zh) 2015-08-25 2015-08-25 一种高可用集群资源监控方法

Country Status (1)

Country Link
CN (1) CN105141456A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106375342A (zh) * 2016-10-21 2017-02-01 用友网络科技股份有限公司 一种基于zookeeper技术的系统集群方法及系统
CN107872643A (zh) * 2016-09-23 2018-04-03 伊姆西Ip控股有限责任公司 用于视频监控系统的故障恢复方法和装置
CN108446163A (zh) * 2018-02-28 2018-08-24 山东乾云启创信息科技股份有限公司 基于openstack的dhcp-server高可用的实现方法及系统
CN108833189A (zh) * 2018-07-27 2018-11-16 郑州云海信息技术有限公司 一种存储节点管理系统及方法
CN109298972A (zh) * 2018-09-06 2019-02-01 高盈量化云科技(深圳)有限公司 一种高可用策略引擎
CN110033095A (zh) * 2019-03-04 2019-07-19 北京大学 一种高可用分布式机器学习计算框架的容错方法和系统
CN110333986A (zh) * 2019-06-19 2019-10-15 上海二三四五网络科技有限公司 一种保障redis集群可用性的方法
CN110362381A (zh) * 2019-06-21 2019-10-22 深圳市汇川技术股份有限公司 Hdfs集群高可用部署方法、系统、设备及存储介质
CN110784350A (zh) * 2019-10-25 2020-02-11 北京计算机技术及应用研究所 一种实时可用集群管理系统的设计方法
CN111176783A (zh) * 2019-11-20 2020-05-19 航天信息股份有限公司 容器治理平台的高可用方法、装置及电子设备
CN111416861A (zh) * 2020-03-20 2020-07-14 中国建设银行股份有限公司 一种通信管理系统和方法
CN107066348B (zh) * 2017-01-07 2021-03-02 苏州浪潮智能科技有限公司 一种高可用nas集群的实现方法及装置
CN112583634A (zh) * 2020-11-16 2021-03-30 麒麟软件有限公司 基于监控系统的公路门架容灾恢复方法
CN113312211A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 一种确保分布式学习系统的高可用性方法
CN113342593A (zh) * 2020-03-02 2021-09-03 慧荣科技股份有限公司 用以进行全快闪存储器阵列伺服器的高可用性管理的方法与设备
CN114039848A (zh) * 2021-09-30 2022-02-11 济南浪潮数据技术有限公司 一种实现InCloudInsight管理平台高可用的方法、装置及设备
CN114064414A (zh) * 2021-11-25 2022-02-18 北京志凌海纳科技有限公司 一种高可用的集群状态监控方法及系统
CN116185697A (zh) * 2023-05-04 2023-05-30 苏州浪潮智能科技有限公司 容器集群管理方法、装置、系统、电子设备及存储介质
CN116614348A (zh) * 2023-07-19 2023-08-18 联想凌拓科技有限公司 用于远程复制服务的系统及其操作方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512375A (zh) * 2002-12-31 2004-07-14 联想(北京)有限公司 利用机群节点相互备份的容错方法
CN102629906A (zh) * 2012-03-30 2012-08-08 浪潮电子信息产业股份有限公司 一种将集群管理节点做双机实现提高集群业务可用性的设计办法
CN103279386A (zh) * 2013-06-09 2013-09-04 浪潮电子信息产业股份有限公司 一种计算机作业调度系统高可用的方法
CN103713974A (zh) * 2014-01-07 2014-04-09 浪潮(北京)电子信息产业有限公司 一种高性能作业调度管理节点双机加固方法及设备
CN104579791A (zh) * 2015-01-26 2015-04-29 浪潮电子信息产业股份有限公司 一种实现k-db主备自动切换容灾集群的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512375A (zh) * 2002-12-31 2004-07-14 联想(北京)有限公司 利用机群节点相互备份的容错方法
CN102629906A (zh) * 2012-03-30 2012-08-08 浪潮电子信息产业股份有限公司 一种将集群管理节点做双机实现提高集群业务可用性的设计办法
CN103279386A (zh) * 2013-06-09 2013-09-04 浪潮电子信息产业股份有限公司 一种计算机作业调度系统高可用的方法
CN103713974A (zh) * 2014-01-07 2014-04-09 浪潮(北京)电子信息产业有限公司 一种高性能作业调度管理节点双机加固方法及设备
CN104579791A (zh) * 2015-01-26 2015-04-29 浪潮电子信息产业股份有限公司 一种实现k-db主备自动切换容灾集群的方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107872643A (zh) * 2016-09-23 2018-04-03 伊姆西Ip控股有限责任公司 用于视频监控系统的故障恢复方法和装置
US11509868B2 (en) 2016-09-23 2022-11-22 EMC IP Holding Company LLC Method and apparatus for failover in a video surveillance system
CN106375342A (zh) * 2016-10-21 2017-02-01 用友网络科技股份有限公司 一种基于zookeeper技术的系统集群方法及系统
CN107066348B (zh) * 2017-01-07 2021-03-02 苏州浪潮智能科技有限公司 一种高可用nas集群的实现方法及装置
CN108446163A (zh) * 2018-02-28 2018-08-24 山东乾云启创信息科技股份有限公司 基于openstack的dhcp-server高可用的实现方法及系统
CN108833189A (zh) * 2018-07-27 2018-11-16 郑州云海信息技术有限公司 一种存储节点管理系统及方法
CN109298972A (zh) * 2018-09-06 2019-02-01 高盈量化云科技(深圳)有限公司 一种高可用策略引擎
CN110033095A (zh) * 2019-03-04 2019-07-19 北京大学 一种高可用分布式机器学习计算框架的容错方法和系统
CN110333986A (zh) * 2019-06-19 2019-10-15 上海二三四五网络科技有限公司 一种保障redis集群可用性的方法
CN110333986B (zh) * 2019-06-19 2023-12-29 上海二三四五网络科技有限公司 一种保障redis集群可用性的方法
CN110362381A (zh) * 2019-06-21 2019-10-22 深圳市汇川技术股份有限公司 Hdfs集群高可用部署方法、系统、设备及存储介质
CN110784350B (zh) * 2019-10-25 2022-04-05 北京计算机技术及应用研究所 一种实时高可用集群管理系统的设计方法
CN110784350A (zh) * 2019-10-25 2020-02-11 北京计算机技术及应用研究所 一种实时可用集群管理系统的设计方法
CN111176783A (zh) * 2019-11-20 2020-05-19 航天信息股份有限公司 容器治理平台的高可用方法、装置及电子设备
CN113342593A (zh) * 2020-03-02 2021-09-03 慧荣科技股份有限公司 用以进行全快闪存储器阵列伺服器的高可用性管理的方法与设备
CN113342593B (zh) * 2020-03-02 2024-03-26 慧荣科技股份有限公司 用以进行全快闪存储器阵列伺服器的高可用性管理的方法与设备
CN111416861A (zh) * 2020-03-20 2020-07-14 中国建设银行股份有限公司 一种通信管理系统和方法
CN111416861B (zh) * 2020-03-20 2022-07-26 中国建设银行股份有限公司 一种通信管理系统和方法
CN112583634A (zh) * 2020-11-16 2021-03-30 麒麟软件有限公司 基于监控系统的公路门架容灾恢复方法
CN112583634B (zh) * 2020-11-16 2022-03-18 麒麟软件有限公司 基于监控系统的公路门架容灾恢复方法
CN113312211A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 一种确保分布式学习系统的高可用性方法
CN114039848A (zh) * 2021-09-30 2022-02-11 济南浪潮数据技术有限公司 一种实现InCloudInsight管理平台高可用的方法、装置及设备
CN114064414A (zh) * 2021-11-25 2022-02-18 北京志凌海纳科技有限公司 一种高可用的集群状态监控方法及系统
CN116185697B (zh) * 2023-05-04 2023-08-04 苏州浪潮智能科技有限公司 容器集群管理方法、装置、系统、电子设备及存储介质
CN116185697A (zh) * 2023-05-04 2023-05-30 苏州浪潮智能科技有限公司 容器集群管理方法、装置、系统、电子设备及存储介质
CN116614348A (zh) * 2023-07-19 2023-08-18 联想凌拓科技有限公司 用于远程复制服务的系统及其操作方法

Similar Documents

Publication Publication Date Title
CN105141456A (zh) 一种高可用集群资源监控方法
Botelho et al. On the design of practical fault-tolerant SDN controllers
CN106331098B (zh) 一种服务器集群系统
CN107707393B (zh) 基于Openstack O版特性的多活系统
US8230256B1 (en) Method and apparatus for achieving high availability for an application in a computer cluster
CN102394774B (zh) 一种云计算操作系统的控制器服务状态监控和故障恢复方法
CN108270726B (zh) 应用实例部署方法及装置
GB2499533A (en) Storage management in clustered data processing systems
US20140317438A1 (en) System, software, and method for storing and processing information
CN105554106A (zh) 一种memcache分布式缓存系统
CN105159798A (zh) 一种虚拟机的双机热备方法、双机热备管理服务器和系统
CN104408071A (zh) 一种基于集群管理器的分布式数据库高可用方法及系统
CN104320401A (zh) 一种基于分布式文件系统的大数据存储访问系统及方法
CN104506357A (zh) 一种高可用集群节点管理方法
CN103036719A (zh) 一种基于主备集群服务器的跨地区服务容灾方法及装置
CN104579791A (zh) 一种实现k-db主备自动切换容灾集群的方法
CN104486131A (zh) 一种基于安腾平台的db2数据库的故障检测和切换方法
CN104184837A (zh) 高可用云计算一体机
CN102833310A (zh) 一种基于虚拟化技术的工作流引擎集群系统
CN106919473A (zh) 一种数据灾备系统及业务处理方法
CN105389231A (zh) 一种数据库双机备份方法及系统
CN105183591A (zh) 一种高可用集群的实现方法及系统
CN103973478A (zh) 基于资源池技术的电网信息灾备系统及灾备方法
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
CN101686261A (zh) 一种基于rac的冗余服务器系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151209