CN102404386A - 一种保证分布式文件系统元数据服务器组的服务高可靠的方法 - Google Patents

一种保证分布式文件系统元数据服务器组的服务高可靠的方法 Download PDF

Info

Publication number
CN102404386A
CN102404386A CN2011103263679A CN201110326367A CN102404386A CN 102404386 A CN102404386 A CN 102404386A CN 2011103263679 A CN2011103263679 A CN 2011103263679A CN 201110326367 A CN201110326367 A CN 201110326367A CN 102404386 A CN102404386 A CN 102404386A
Authority
CN
China
Prior art keywords
state
thread
service processes
highly reliable
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103263679A
Other languages
English (en)
Inventor
王勇
张东阳
张玉龙
姜国梁
彭程
吕民强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUXI CITY CLOUD COMPUTER CENTER CO Ltd
Original Assignee
WUXI CITY CLOUD COMPUTER CENTER CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUXI CITY CLOUD COMPUTER CENTER CO Ltd filed Critical WUXI CITY CLOUD COMPUTER CENTER CO Ltd
Priority to CN2011103263679A priority Critical patent/CN102404386A/zh
Publication of CN102404386A publication Critical patent/CN102404386A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供了一种保证分布式文件系统元数据服务器组的服务高可靠的方法,启动高可靠服务进程,对其初始化,并读取高可靠服务进程的配置属性表;高可靠服务进程启动服务进程,并周期性检查服务进程的状态;服务进程启动网络模块获得网络状态和服务状态,并由心跳线程以设定速率给高可靠服务进程报告自身运行状态以及网络状态;高可靠服务进程与其他服务器组的高可靠服务进程互相通信告知状态;如果服务进程状态异常,则心跳线程停止发送信息,其他服务器组高可靠服务进程无法接收到心跳线程信息后,高可靠服务进程重启服务进程。本发明通过不同服务器之间能够规避系统错误,提供不间断的正确的服务。

Description

一种保证分布式文件系统元数据服务器组的服务高可靠的方法
技术领域
本发明涉及分布式文件系统高可靠领域,具体来说涉及一种保证分布式文件系统元数据服务器组的服务高可靠的方法。
背景技术
文件系统管理数据,通常将元数据作为最重要的数据存放在高可靠设备上。而分布式文件系统,由于管理海量数据,通常其元数据也是大量的,需要专门的存储设备存储的。此时,元数据存储设备的性能和安全性就成了整个分布式文件系统的瓶颈。分布式文件系统的元数据服务器,通常需要非常高的可靠性。那么冗余备份技术就成为元数据服务器组的高可靠方案首选技术。要求系统能够规避系统错误,提供不间断的正确的服务。为了实现此要求,必须对系统的关键部分进行冗余设计。一旦关键部分失效,冗余备份将接管并对外提供服务。因此而保证了对外提供不间断的、正确的服务。通常来说,元数据服务器组的备份方式根据不同的表现方式可以有:active-standby模式,active-active模式。
在active-active模式下,其中一台机器上的服务出现故障,由另一台机器替代,提供对外不间断的服务。通过HEARTBEAT机制,能够让一组元数据服务器互相知晓各个机器的运行状态。需要检测组内所有的链路是否正常工作,通常状态下,应用层消息是时间分布不规律的,有可能在相当一段时间内都没有消息发送和接收,这就有可能发生链路不正常工作而网络模块还不知晓。需要定时间隔性的检查网络链接。通常的高可靠需要监控服务,并且在故障时做节点切换,保证服务无单点故障。对整个分布式文件系统的重要的模块都需要做冗余备份,所有单点的服务,都被设计成为具有备份的服务,但是对于系统中其他模块来说,这种备份是透明的,即从其他模块看来,此服务仍旧是“单点服务”。
发明内容
为了保障分布式元数据服务器组服务运行的稳定,本发明提供了一种保证分布式文件系统元数据服务器组的服务高可靠的方法。
一种保证分布式文件系统元数据服务器组的服务高可靠的方法,方法如下:
启动高可靠服务进程,对其初始化,并读取高可靠服务进程的配置属性表;
高可靠服务进程启动服务进程,并周期性检查服务进程的状态;
服务进程启动网络模块获得网络状态和服务状态,并由心跳线程以设定速率给高可靠服务进程报告自身运行状态以及网络状态;
高可靠服务进程与其他服务器组的高可靠服务进程互相通信告知状态;
如果服务进程状态异常,则心跳线程停止发送信息,其他服务器组高可靠服务进程无法接收到心跳线程信息后,高可靠服务进程重启服务进程。
优选的,所述服务进程包括三种线程,
PING线程,用于检测节点是否可到达;
串口线程,用于传播状态信息并判断串口状态;
报告线程,用于将检测的状态报告给高可靠服务进程。
优选的,所述网络模块包括高可靠服务线程,心跳线程和通信线程。
优选的,所述串口线程传播状态信息时采用call-return协议,每个信息有序号顺序,当信息需要重传时,则不带序号,在信息类型中标注出为重传信息。
优选的,所述心跳线程包括至少一个,每个线程负责处理各自的信息通道连接。
优选的,所述心跳进程对信息通道发送信息数量进行监控,如果在设定时间间隔内有更新,则说明工作正常;如果在设定时间间隔内无更新,则心跳线程对该信息通道进行检测。
本发明通过不同服务器之间能够规避系统错误,提供不间断的正确的服务。
附图说明
图1为分布式文件系统元数据组高可靠示意图;
图2为高可靠检控进程流程的示意图;
具体实施方式
图1给出了本发明分布式文件系统元数据组高可靠示意图,它由HA进程、HA线程、心跳线程和底层通信四个部分组成。其中HA线程、心跳线程和通信都是网络模块的一部分。系统的运行状态如图所示,系统起动后,HA进程启动被监控进程,被监控进程会启动网络模块。被监控进程中的网络模块会得到网络状态和服务状态,并以心跳速率给HA进程报告自身运行状态以及网络状态,HA进程将此状态通知对端HA进程。
本发明父进程流程参考图2,详细步骤:
第一步:HA进程启动,初始化,读取配置,得到HA的配置属性。
第二步:启动被监控的服务进程,并且周期性的检查服务进程的状态。
第三步:监视子进程,如果需要重启,则重启之。
第四步:HA进程重复第三步。
本发明心跳机制包括两个部分:网络部分和串口部分。首先整个HA采用通知机制:
1.HA进程从服务进程得到服务进程状态。
2.网络模块中HA心跳线程部分以一定心跳速度发送消息。
3.如果服务进程状态为BAD,HA停止心跳,对方会因收不到心跳消息而知晓服务进程状态
4.HA进程能够重启服务进程
5.HA心跳部分包含多个线程,每个线程负责处理相应的通道-link
其中串口消息传递采用call-return协议:一个消息发出去,一定要等到回应。这包含:1]消息之间有严格的序号;2]需要重传的消息,没有序号,通过消息中的type指出。
对数据通道的监控机制:对每一条链路的成功发送数目进行检查,如果在时间间隔内有更新则说明链路被征用。如果一段时间链路无征用则需要HA心跳线程去检测数据通道。
本发明的状态报告的内容主要有:能够给其他模块提供当前检测的状态,包括:服务状态,网络状态,节点状态,串口状态。其中服务状态是由HA进程监控的,通过共享内存,能够周期性的得到被监控程序的状态。而网络状态是由网络心跳线程监控而得到的。节点状态通过ping线程监控而得到。串口状态是由串口线程得到。通过共享内存和全局变量,能够让父进程和子进程都能够知晓本地的状态和组内其他节点的状态。状态报告线程通过周期性检查全组状态,能够给管理员报告组内的节点状态。
错误处理是状态检测之后的流程,元数据组的节点中检测到一个节点的串口、网络、服务状态的异常状态,对异常的处理包括:
第一:父进程检测到服务进程异常,需要重启服务。
第二:串口异常需要通过状态报告线程报告管理模块
第三:网络异常需要通过状态报告线程报告管理模块
第四:检测到对端节点异常,需要接管整个服务。

Claims (6)

1.一种保证分布式文件系统元数据服务器组的服务高可靠的方法,其特征在于:方法如下:
启动高可靠服务进程,对其初始化,并读取高可靠服务进程的配置属性表;
高可靠服务进程启动服务进程,并周期性检查服务进程的状态;
服务进程启动网络模块获得网络状态和服务状态,并由心跳线程以设定速率给高可靠服务进程报告自身运行状态以及网络状态;
高可靠服务进程与其他服务器组的高可靠服务进程互相通信告知状态;
如果服务进程状态异常,则心跳线程停止发送信息,其他服务器组高可靠服务进程无法接收到心跳线程信息后,高可靠服务进程重启服务进程。
2.如权利要求1所述的方法,其特征在于:所述服务进程包括三种线程,
PING线程,用于检测节点是否可到达;
串口线程,用于传播状态信息并判断串口状态;
报告线程,用于将检测的状态报告给管理模块。
3.如权利要求1所述的方法,其特征在于:所述网络模块包括高可靠服务线程,心跳线程和通信线程。
4.如权利要求2所述的方法,其特征在于:所述串口线程传播状态信息时采用call-return协议,每个信息有序号顺序,当信息需要重传时,则不带序号,在信息类型中标注出为重传信息。
5.如权利要求1所述的信息,其特征在于:所述心跳线程包括至少一个,每个线程负责处理各自的信息通道连接。
6.如权利要求1所述的信息,其特征在于:,所述心跳进程对信息通道发送信息数量进行监控,如果在设定时间间隔内有更新,则说明工作正常;如果在设定时间间隔内无更新,则心跳线程对该信息通道进行检测。
CN2011103263679A 2012-01-09 2012-01-09 一种保证分布式文件系统元数据服务器组的服务高可靠的方法 Pending CN102404386A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103263679A CN102404386A (zh) 2012-01-09 2012-01-09 一种保证分布式文件系统元数据服务器组的服务高可靠的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103263679A CN102404386A (zh) 2012-01-09 2012-01-09 一种保证分布式文件系统元数据服务器组的服务高可靠的方法

Publications (1)

Publication Number Publication Date
CN102404386A true CN102404386A (zh) 2012-04-04

Family

ID=45886166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103263679A Pending CN102404386A (zh) 2012-01-09 2012-01-09 一种保证分布式文件系统元数据服务器组的服务高可靠的方法

Country Status (1)

Country Link
CN (1) CN102404386A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001832A (zh) * 2012-12-21 2013-03-27 曙光信息产业(北京)有限公司 分布式文件系统中节点的检测方法和装置
CN103067740A (zh) * 2012-12-31 2013-04-24 浙江元亨通信技术股份有限公司 视频监控设备故障智能检测方法及其检测系统
CN103618788A (zh) * 2013-11-26 2014-03-05 曙光信息产业股份有限公司 一种支持b/s结构系统高可用的方法
WO2015043407A1 (en) * 2013-09-30 2015-04-02 Tencent Technology (Shenzhen) Company Limited Method, system, and apparatus for online service inspection
WO2016155246A1 (zh) * 2015-04-01 2016-10-06 中兴通讯股份有限公司 一种保活报文的处理方法及装置
CN107480014A (zh) * 2017-07-24 2017-12-15 北京奇安信科技有限公司 一种高可用设备切换方法及装置
CN109361525A (zh) * 2018-10-25 2019-02-19 珠海派诺科技股份有限公司 重启分布式部署多服务的方法、装置、控制终端及介质
CN113867815A (zh) * 2021-09-17 2021-12-31 杭州当虹科技股份有限公司 服务器挂起监测和自动重启方法以及应用其的服务器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101459694A (zh) * 2008-12-31 2009-06-17 中国科学院计算技术研究所 针对分布式文件系统的高可用消息传输框架和方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101459694A (zh) * 2008-12-31 2009-06-17 中国科学院计算技术研究所 针对分布式文件系统的高可用消息传输框架和方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
何飞跃: "并行文件系统元数据管理研究", 《万方学术期刊数据库》, 31 December 2004 (2004-12-31) *
史小冬: "分布式文件系统高可用问题研究", 《万方学术期刊数据库》, 2 February 2007 (2007-02-02) *
李胜利,唐维,石柯等: "高可以并行文件系统的分布式元数据管理", 《万方学术期刊数据库》, 31 May 2005 (2005-05-31) *
李金霞: "高可用性系统设计", 《万方学术期刊数据库》, 25 November 2009 (2009-11-25), pages 9542 - 9543 *
邓伟: "电信网管平台高可用性技术的研究与实现", 《万方学术学位论文数据库》, 29 April 2009 (2009-04-29) *
钱迎进: "基于对象存储的高可用技术的研究与实现", 《万方学术期刊数据库》, 17 November 2006 (2006-11-17) *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001832A (zh) * 2012-12-21 2013-03-27 曙光信息产业(北京)有限公司 分布式文件系统中节点的检测方法和装置
CN103001832B (zh) * 2012-12-21 2016-02-10 曙光信息产业(北京)有限公司 分布式文件系统中节点的检测方法和装置
CN103067740A (zh) * 2012-12-31 2013-04-24 浙江元亨通信技术股份有限公司 视频监控设备故障智能检测方法及其检测系统
CN103067740B (zh) * 2012-12-31 2015-08-12 浙江元亨通信技术股份有限公司 视频监控设备故障智能检测方法及其检测系统
WO2015043407A1 (en) * 2013-09-30 2015-04-02 Tencent Technology (Shenzhen) Company Limited Method, system, and apparatus for online service inspection
CN103618788A (zh) * 2013-11-26 2014-03-05 曙光信息产业股份有限公司 一种支持b/s结构系统高可用的方法
WO2016155246A1 (zh) * 2015-04-01 2016-10-06 中兴通讯股份有限公司 一种保活报文的处理方法及装置
CN107480014A (zh) * 2017-07-24 2017-12-15 北京奇安信科技有限公司 一种高可用设备切换方法及装置
CN107480014B (zh) * 2017-07-24 2021-01-01 奇安信科技集团股份有限公司 一种高可用设备切换方法及装置
CN109361525A (zh) * 2018-10-25 2019-02-19 珠海派诺科技股份有限公司 重启分布式部署多服务的方法、装置、控制终端及介质
CN113867815A (zh) * 2021-09-17 2021-12-31 杭州当虹科技股份有限公司 服务器挂起监测和自动重启方法以及应用其的服务器
CN113867815B (zh) * 2021-09-17 2023-08-11 杭州当虹科技股份有限公司 服务器挂起监测和自动重启方法以及应用其的服务器

Similar Documents

Publication Publication Date Title
CN102404386A (zh) 一种保证分布式文件系统元数据服务器组的服务高可靠的方法
US10592330B2 (en) Systems and methods for automatic replacement and repair of communications network devices
CN103425645B (zh) 数据库集群单点故障的监控系统及方法
CN103414916B (zh) 一种故障诊断系统及方法
CN105095001B (zh) 分布式环境下虚拟机异常恢复方法
US20140372805A1 (en) Self-healing managed customer premises equipment
US20090290483A1 (en) Method of and a system for autonomously identifying which node in a two-node system has failed
CN103067209B (zh) 一种心跳模块自检测方法
JP2005209201A (ja) 高可用性クラスタにおけるノード管理
CN110830283B (zh) 故障检测方法、装置、设备和系统
CN103532753B (zh) 一种基于内存换页同步的双机热备方法
CN103354503A (zh) 一种可自动检测及替换故障节点的云存储系统及其方法
CN104065526B (zh) 一种服务器故障报警的方法和装置
CN104320311A (zh) 一种scada分布式平台下的心跳检测方法
CN105430327A (zh) 一种nvr集群备份方法及装置
CN104601668A (zh) 基于状态管理的数据推送方法、装置和系统
CN109391691A (zh) 一种单节点故障下nas服务的恢复方法及相关装置
CN107071189B (zh) 一种通讯设备物理接口的连接方法
US7428655B2 (en) Smart card for high-availability clustering
CN107153595A (zh) 分布式数据库系统的故障检测方法及其系统
CN104317679A (zh) 一种scada系统基于线程冗余的通信容错方法
CN104331353A (zh) 软件高可用保证的方法
KR101358995B1 (ko) 고가용성 관리 방법 및 시스템
CN108064054A (zh) 一种lte系统中的ftp文件传输监控方法及系统
JP2012205286A (ja) ネットワーク監視装置、ネットワーク試験方法、パス情報管理方法、及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120404