CN103235752A - 一种保证服务器管理系统服务可用性的方法 - Google Patents

一种保证服务器管理系统服务可用性的方法 Download PDF

Info

Publication number
CN103235752A
CN103235752A CN2013101121808A CN201310112180A CN103235752A CN 103235752 A CN103235752 A CN 103235752A CN 2013101121808 A CN2013101121808 A CN 2013101121808A CN 201310112180 A CN201310112180 A CN 201310112180A CN 103235752 A CN103235752 A CN 103235752A
Authority
CN
China
Prior art keywords
service
availability
heartbeat
management system
server management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013101121808A
Other languages
English (en)
Inventor
张砚波
王东风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN2013101121808A priority Critical patent/CN103235752A/zh
Publication of CN103235752A publication Critical patent/CN103235752A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种保证服务器管理系统服务可用性的方法,服务可用性评估采用的分层模型简化可用性评估,服务器管理系统中服务、计算资源、存储资源之间的可用性存在依赖关系,服务的可用性依赖于其它三者的可用性,只有三者都可用,这个服务才是健康可用的,其中服务的部署直接依赖于服务器管理系统,这个也就是我们检测到的服务的运行状态,服务的正常提供与否直接依赖于计算资源与存储资源,高可用HeartBeat系统负责这两类资源的失效切换,服务的状态直接依赖于服务器管理系统的可用性,本发明只对服务部署成功后的可用性进行评估,本发明是对计算资源和存储资源的可用性分别进行评估,在此基础上对服务的可用性进行评估,每个服务由计算资源模块和存储资源系统以串联模式结合。

Description

一种保证服务器管理系统服务可用性的方法
技术领域
本发明涉及计算机应用领域,具体地说是一种保证服务器管理系统服务可用性的方法。
背景技术
针对现在依赖于系统上服务的一些应用来讲,服务器管理系统上服务是否正常运行,服务的应用资源是否可以使用等问题成了IT界高可用模块的研究重点,如何实现用户重要功能的可持续供给,实现服务宕掉是及时切换成为本发明的实现点。
在现阶段,高可用领域尤其是在openindiana上定制的一些服务的各种监听机制来讲,主要存在如下缺点:
1、高可用软件HeartBeat 虽然解决了服务主机出现死机、系统崩溃等情况下的主机切换功能,但是当主服务器由于软件自身等原因致使所提供的某一种服务(如 ftp 、smb服务)宕掉时,备份主机并不能监听到接管该服务,因此无法实现服务的及时切换功能;
2、针对现在服务的健康状况进行有效的评估是业界一个难以界定的概念,如何界定一个服务的健康状况是一个重点,因为有时虽然服务是在线状态,但是它的服务资源确实不可用,这样也会导致服务的不可用。
发明内容
本发明的目的是提供一种保证服务器管理系统服务可用性的方法。
本发明的目的是按以下方式实现的:本发明在HeartBeat 软件的实现基础上加以改进,在提供服务的主服务机上实现了服务检测功能,以及提供一种可量化的服务评估方式是对服务使用的计算资源和存储资源的可用性分别进行评估,最后得出服务的可用与否,增加服务的可靠性,以提供HeartBeat 软件是否进行主从服务器之间的服务切换。
具体步骤如下:
将检测功能的 shell 嵌入 HeartBeat 的主文件 heartbeat.c 文件中的初始化函数 static int initialize_heartbeat()函数中,伴随着HearBeat服务同时启动,以保证被检测的服务从始至终能够被检测到,只要检测的服务在运行,检测一直循环进行,只有检测的服务停止运行,并且达到重启失败的次数,此时循环才结束,通过 svcs -a | grep 检测的服务来检测服务状态,只要检测到服务处于异常状态,就先尝试用enable或clear命令重启服务,重启成功,继续循环 ;达到重启次数失败就会退出循环,让从服务器接管该服务以保证服务的连续性和可用性;
通过服务系统提供的系统命令svcs -a查找出所有服务系统中运行的服务状态,然后通过脚本查看我们需要检测的服务的状态是否运行正常,如果要检测的服务不是在线状态,则立刻重启或者停止该服务,如成功,则该服务就正常运行了 ;如失败,则主机经过设定次数的重启尝试后便发送消息给集群中的其他备份主机,要求其他主机接管该服务,从而完成服务切换。
本发明的有益效果是:利用服务器管理系统上服务的检测功能和服务评估模型,建立一种更加可靠的、更加方便的HA高可用机制,来保证服务器管理系统的强大的服务可用性。
本发明是基于HeartBeat 软件服务检测和评估功能,保证服务器管理系统在高可用集群 HeartBeat 软件中解决服务不可用时的自动切换问题。
本专利在HeartBeat 软件的实现基础上加以改进,并在提供服务的主服务机上实现了服务检测功能,当服务出现异样时可以实现主从服务器之间的服务切换功能,增加其可靠性。这种评估方式是对服务使用的计算资源和存储资源的可用性分别进行评估,最后得出服务的可用性,以提供HeartBeat 软件是否进行主从服务器之间的服务切换。
附图说明
图1是本发明中可用性依赖关系图;
图2是本发明中服务的可用性评估关系图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
通过服务系统提供的系统命令(svcs -a)查找出所有服务系统中运行的服务状态,然后通过脚本查看我们需要检测的服务的状态是否运行正常。如果我们要检测的服务不是在线状态,则立刻enable或者clear该服务,如成功,则该服务就可以正常运行了 ;如失败,则主机经过设定次数的重启尝试后便发送消息给集群中的其他备份主机,要求其他主机接管该服务,从而完成服务切换。
本发明是将检测功能的 shell 嵌入 HeartBeat 的主文件 heartbeat.c 文件中的初始化函数 static int initialize_heartbeat()函数中。这样就可以伴随着HearBeat服务同时启动,并可以保证被检测的服务从始至终能够被检测到。总体上来说,检测的算法是一个死循环(只要检测的服务在运行),当检测的服务停止运行,并且达到重启的次数并且失败,此时循环才结束。通过 svcs -a | grep 检测的服务来检测服务状态,只要检测到服务处于异常状态,就先尝试用enable或clear命令重启服务,重启成功,继续循环 ;达到重启次数失败就会退出循环。让从服务器接管该服务。保证了服务的连续性和可用性。
 本发明的服务可用性评估采用的分层模型简化可用性评估,服务器管理系统中服务、计算资源、存储资源之间的可用性依赖关系如图1所示。服务的可用性依赖于其它三者的可用性,只有三者都可用,这个服务才是健康可用的,其中服务的部署直接依赖于服务器管理系统,这个也就是我们检测到的服务的运行状态,服务的正常提供与否直接依赖于计算资源与存储资源。高可用HeartBeat系统负责这两类资源的失效切换,服务的状态直接依赖于服务器管理系统的可用性。本发明只对服务部署成功后的可用性进行评估。一种简化的评估方式是对计算资源和存储资源的可用性分别进行评估,在此基础上对服务的可用性进行评估。每个服务由计算资源模块和存储资源系统以串联模式结合。
举例说明:如图2所示,只要有一个计算资源可用,服务器管理系统的服务可用,则计算资源系统的总可用性为                                                
Figure 103695DEST_PATH_IMAGE002
,其中
Figure 20836DEST_PATH_IMAGE004
为各个计算资源可用性.服务可用性为
Figure 862890DEST_PATH_IMAGE006
,其中
Figure 946514DEST_PATH_IMAGE008
为存储资源系统可用性。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种保证服务器管理系统服务可用性的方法, 其特征在于该方法是在HeartBeat 软件的实现基础上加以改进,在提供服务的主服务机上实现了服务检测功能,以及提供一种可量化的服务评估方式是对服务使用的计算资源和存储资源的可用性分别进行评估,最后得出服务的可用与否,增加服务的可靠性,以提供HeartBeat 软件是否进行主从服务器之间的服务切换,具体步骤如下:
将检测功能的 shell 嵌入 HeartBeat 的主文件 heartbeat.c 文件中的初始化函数 static int initialize_heartbeat()函数中,伴随着HearBeat服务同时启动,以保证被检测的服务从始至终能够被检测到,只要检测的服务在运行,检测一直循环进行,只有检测的服务停止运行,并且达到重启失败的次数,此时循环才结束,通过 svcs -a | grep 检测的服务来检测服务状态,只要检测到服务处于异常状态,就先尝试用enable或clear命令重启服务,重启成功,继续循环 ;达到重启次数失败就会退出循环,让从服务器接管该服务以保证服务的连续性和可用性;
通过服务系统提供的系统命令svcs -a查找出所有服务系统中运行的服务状态,然后通过脚本查看我们需要检测的服务的状态是否运行正常,如果要检测的服务不是在线状态,则立刻重启或者停止该服务,如成功,则该服务就正常运行了 ;如失败,则主机经过设定次数的重启尝试后便发送消息给集群中的其他备份主机,要求其他主机接管该服务,从而完成服务切换。
CN2013101121808A 2013-04-02 2013-04-02 一种保证服务器管理系统服务可用性的方法 Pending CN103235752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013101121808A CN103235752A (zh) 2013-04-02 2013-04-02 一种保证服务器管理系统服务可用性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013101121808A CN103235752A (zh) 2013-04-02 2013-04-02 一种保证服务器管理系统服务可用性的方法

Publications (1)

Publication Number Publication Date
CN103235752A true CN103235752A (zh) 2013-08-07

Family

ID=48883797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013101121808A Pending CN103235752A (zh) 2013-04-02 2013-04-02 一种保证服务器管理系统服务可用性的方法

Country Status (1)

Country Link
CN (1) CN103235752A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104901834A (zh) * 2015-05-20 2015-09-09 广东睿江科技有限公司 一种网络服务器自动切换的方法及系统
CN105934914A (zh) * 2013-12-19 2016-09-07 谷歌公司 用于服务处理的系统、方法和计算机程序产品
CN106295131A (zh) * 2016-07-29 2017-01-04 武汉联影医疗科技有限公司 一种监管软件运行的方法及装置
CN110968327A (zh) * 2018-09-29 2020-04-07 中国电信股份有限公司 服务系统及其部署方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790431A (en) * 1995-11-20 1998-08-04 International Business Machines Corporation Method and system for measuring availability in a distributed network
CN102231681A (zh) * 2011-06-27 2011-11-02 中国建设银行股份有限公司 一种高可用集群计算机系统及其故障处理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790431A (en) * 1995-11-20 1998-08-04 International Business Machines Corporation Method and system for measuring availability in a distributed network
CN102231681A (zh) * 2011-06-27 2011-11-02 中国建设银行股份有限公司 一种高可用集群计算机系统及其故障处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石俊 等: "Linux高可用性系统的改进方案", 《计算机安全》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105934914A (zh) * 2013-12-19 2016-09-07 谷歌公司 用于服务处理的系统、方法和计算机程序产品
CN104901834A (zh) * 2015-05-20 2015-09-09 广东睿江科技有限公司 一种网络服务器自动切换的方法及系统
CN106295131A (zh) * 2016-07-29 2017-01-04 武汉联影医疗科技有限公司 一种监管软件运行的方法及装置
CN110968327A (zh) * 2018-09-29 2020-04-07 中国电信股份有限公司 服务系统及其部署方法

Similar Documents

Publication Publication Date Title
US11681566B2 (en) Load balancing and fault tolerant service in a distributed data system
US8990617B2 (en) Fault-tolerant computer system, fault-tolerant computer system control method and recording medium storing control program for fault-tolerant computer system
US9582373B2 (en) Methods and systems to hot-swap a virtual machine
CN102325192B (zh) 云计算实现方法和系统
US8135985B2 (en) High availability support for virtual machines
CN105659562B (zh) 一种用于容障的方法和数据处理系统和包括用于容障的计算机可用代码的存储设备
US8769535B2 (en) Providing virtual machine high-availability and fault tolerance via solid-state backup drives
US9727358B2 (en) Failover detection and treatment in checkpoint systems
CN105095001B (zh) 分布式环境下虚拟机异常恢复方法
WO2016165304A1 (zh) 一种实例节点管理的方法及管理设备
US20140082413A1 (en) System and method for using redundancy of controller operation
CN103235752A (zh) 一种保证服务器管理系统服务可用性的方法
KR101638437B1 (ko) 고장감내처리 시스템의 동작방법
CN106970861A (zh) 一种虚拟机容错方法和系统
US10102088B2 (en) Cluster system, server device, cluster system management method, and computer-readable recording medium
BR102013005401A2 (pt) sistema de agrupamento, programa e método de gerenciamento de nós
CN108268302B (zh) 实现设备启动的方法和装置
CN103902401B (zh) 基于监控的虚拟机容错方法及装置
CN103455393A (zh) 一种基于进程冗余的容错系统设计方法
KR102174692B1 (ko) 가상화 환경에서의 장애 처리 방법
US20180107502A1 (en) Application continuous high availability solution
CN104360935A (zh) 一种服务器系统崩溃转储收集的方法
KR102023164B1 (ko) 알티오에스 마이컴의 오에스 태스크의 모니터링 방법
CN114217905A (zh) 虚拟机高可用恢复处理方法及系统
EP2799991A1 (en) The disable restart setting for AMF configuration components

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130807