CN102387210A - 一种基于快速同步网络的分布式文件系统监控方法 - Google Patents

一种基于快速同步网络的分布式文件系统监控方法 Download PDF

Info

Publication number
CN102387210A
CN102387210A CN2011103259885A CN201110325988A CN102387210A CN 102387210 A CN102387210 A CN 102387210A CN 2011103259885 A CN2011103259885 A CN 2011103259885A CN 201110325988 A CN201110325988 A CN 201110325988A CN 102387210 A CN102387210 A CN 102387210A
Authority
CN
China
Prior art keywords
node
synchronization group
host node
state
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103259885A
Other languages
English (en)
Other versions
CN102387210B (zh
Inventor
张攀勇
袁重桥
赵力
邵宗有
刘新春
苗艳超
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU DAWN INFORMATION TECHNOLOGY CO., LTD.
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201110325988.5A priority Critical patent/CN102387210B/zh
Publication of CN102387210A publication Critical patent/CN102387210A/zh
Application granted granted Critical
Publication of CN102387210B publication Critical patent/CN102387210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提出的一种基于快速同步网络的分布式文件系统监控机制,能够快速同步系统中的每一个节点上服务的状态,对于N个节点,全系统只需要发送3N个消息即可完成整个系统的状态监控和同步,因此具有较好的可扩展性,能够随着系统规模进行扩展。同时采用了基于选举的动态换主方法,不存在单点故障。同时根据系统与其他节点的通信状态,进一步压缩了同步消息的数量,降低了监控的开销。

Description

一种基于快速同步网络的分布式文件系统监控方法
技术领域
本发明涉及并行文件系统的通信系统,特别涉及一种基于快速同步网络的分布式文件系统监控方法。
背景技术
分布式系统中通信系统作为系统各节点之间的通信基础,具有重要的意义。由于分布式系统中的每一个节点均可能出现故障,而为了提高系统的可用性,需要在节点和服务出现故障之后,能够快速的进行故障检测和定位,以便于系统的后续故障恢复和处理。因此分布式系统的监控和检测的速度和准确率变得重要。传统的系统监控方法,通过节点之间相互发出服务状态监控消息,这种方法能够检测出系统故障,但是随着系统规模的扩大,其对网络中正常消息的干扰会急剧上升。同时故障检测和通知的速度均存在问题。在这种背景下,本专利提出了一种利用快速同步网络进行分布式文件系统监控的机制,有效的保证了可扩展性和检测通知的速度。
发明内容
本发明的目的是解决随着系统规模扩到导致的文件系统监控的可扩展性和速度的问题,基于快速同步网络,提供了一种分布式系统监控机制。
本发明采用了一套快速同步网络,该快速同步网络与每一个服务节点相互连接,采用树状或者其他拓扑形状,连接起来,构成一个同步组,每一个服务节点在快速同步网络中间有一个独立的编号。
对于同步组中间的节点上,存在一个同步代理模块,用于获取节点上运行服务的状态,和同步组中间的其他节点之间进行消息交互,包括报告自身的服务状态,获取整个系统的节点服务状态。
在一个同步组中间,存在一个主节点,用以周期性的发起状态收集命令,向所有节点报告整个系统的运行状态。其他从节点负责处理主节点发出的状态收集命令,收集本地节点服务状态,并向主节点应答本节点的状态。同时从节点负责接收来自主节点的系统状态报告,根据该状态报告进行故障处理。当系统规模扩大之后,同步组可以分层,每一层内部为一个同步组,内部完成同步之后,由每一层提供的同步组的头结点构成的高一层同步组之间再进行同步操作。
当主节点出现故障的时候,需要同步组能够迅速检查到主节点故障,并进行换主操作。本发明实现了一种动态换主方法。详细步骤为:
S1,对于每一个从节点,会周期性的检测是否存在来自主节点的系统状态报告消息;
S2,如果发现主节点未报告,则增加主节点失败计数;如果主节点的失败记录超过阈值,则从节点向同步组中间上次活动的序号最小的从节点发出接管命令,等待接管完成命令;
S3,该最小节点在接收到接管命令之后,向主节点发出状态询问命令,如果收到主节点的应答命令,则无操作;否则,认为主节点死机,进行主节点接管操作,在接管操作完成之后,向所有节点发出接管完成命令;
S4,如果其他从节点在几个周期内未收到接管完成命令,则认为该最小节点死机,继续步骤S2,选出下一个可用的主节点为止;
S5,新接管完成的主节点定期发起请求状态查询。
本发明提出的一种基于快速同步网络的分布式文件系统监控机制,能够快速同步系统中的每一个节点上服务的状态,对于N个节点,全系统只需要发送3N个消息即可完成整个系统的状态监控和同步,因此具有较好的可扩展性,能够随着系统规模进行扩展。同时采用了基于选举的动态换主方法,不存在单点故障。同时根据系统与其他节点的通信状态,进一步压缩了同步消息的数量,降低了监控的开销。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1为基于快读同步网络的监控系统示意图;
图2为节点监控机制示意图;
图3为多层次系统的同步方式示。
具体实施方式
下面结合附图和具体实施方式对本发明的方法进行说明。
快速同步网络的连接如图1所示,快速同步网络与每一套服务节点相互连接,同步网络的具体实现形式不限定,可以为物理的独立的管理网络,可以为和数据网络一样的物理网络。
节点监控方式如图2所示,对于同步组中间的状态收集和同步方式分为如下几个步骤:
步骤S1,头节点根据当前节点和其他节点的连接状态,以及在监测时间间隔内是否发送过消息,构建状态收集组,如果时间间隔内发送过消息,则无需向该节点发送状态收集命令;如果未发送消息,则将对应节点加入到状态收集组中
步骤S2,头结点向其他节点以广播的方式发出状态收集请求,等待其他节点应答状态通知
步骤S3,同步组中其他节点在接收到状态收集消息之后,检测自己的服务状态,并向头结点发出应答通知。
步骤S4,头结点收集所有的应答通知,如果有节点在规定时间内未应答,则认为该节点上的服务未响应,如果死机次数超过规定阈值,则认为该节点死机,修改对应的节点状态。
步骤S5,头结点在完成收集应答通知步骤之后,向同步组中的所有有效节点发出系统状态通知。
步骤S6,其他节点在接收到系统状态通知之后,获知系统中整个节点状态,根据状态通知,进行相应的故障处理。
多层次系统的同步方式示例如图3所示:
步骤S1,主节点0和次主节点1,次主节点2构成一个同步组0,主节点0首先以广播方式发起状态收集请求,等待同步组的应答
步骤S2次主节点1和其内部的从节点构成一个次同步组1,次主节点1在收到主节点0发出的状态收集请求,次主节点1以广播的方式发起状态收集请求,在内部收集完成之后,向主节点0发送同步组0的应答操作。同样的次主节点2在次同步组2内部发起状态收集请求,在次同步组2内部完成状态收集之后,向主节点0发送同步组0的应答操作。
步骤S3,主节点0在收到次主节点1和次主节点2的应答操作之后,计算全系统的状态,向次主节点发送系统状态报告
步骤S4,次主节点在接收到系统状态报告之后,向各自的次同步组内部广播系统状态。
步骤S5,各个节点都接收到系统状态,完成一次同步操作。

Claims (4)

1.一种基于快速同步网络的分布式文件系统监控方法,其特征在于:
服务器节点通过快速同步网络相互连接组成一个同步组,每个服务器节点在快速同步网络中有独立的编号;
在一个同步组中,设置一个主节点用于周期性发起状态收集命令,向所有节点报告整个系统的运行状态;
其他从节点负责处理主节点发出的状态收集命令,收集本地节点服务状态,并向主节点应答本节点的状态;
同时从节点负责接收来自主节点的系统状态报告,根据该状态报告进行故障处理。
2.如权利要求1所述的方法,其特征在于:所述同步组中存在一个同步代理模块,用于获取节点上运行服务的状态,和同步组中间的其他节点之间进行消息交互,包括报告自身的服务状态,获取整个系统的节点服务状态。
3.如权利要求1所述的方法,其特征在于:所述同步组可以分层,每一层内部为一个同步组,内部完成同步之后,由每一层提供的同步组的头结点构成的高一层同步组之间再进行同步操作。
4.如权利要求1所述的方法,其特征在于:所述主节点在出现故障时,同步组的换主方法为:
S1,对于每一个从节点,系统周期性的检测是否存在来自主节点的系统状态报告消息;
S2,如果发现主节点未报告,则增加主节点失败计数;如果主节点的失败记录超过阈值,则从节点向同步组中间上次活动的序号最小的从节点发出接管命令,等待接管完成命令;
S3,该最小节点在接收到接管命令之后,向主节点发出状态询问命令,如果收到主节点的应答命令,则无操作;否则,认为主节点死机,进行主节点接管操作,在接管操作完成之后,向所有节点发出接管完成命令;
S4,如果其他从节点在几个周期内未收到接管完成命令,则认为该最小节点死机,继续步骤S2,选出下一个可用的主节点为止,
S5,新接管完成的主节点定期发起请求状态查询。
CN201110325988.5A 2011-10-25 2011-10-25 一种基于快速同步网络的分布式文件系统监控方法 Active CN102387210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110325988.5A CN102387210B (zh) 2011-10-25 2011-10-25 一种基于快速同步网络的分布式文件系统监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110325988.5A CN102387210B (zh) 2011-10-25 2011-10-25 一种基于快速同步网络的分布式文件系统监控方法

Publications (2)

Publication Number Publication Date
CN102387210A true CN102387210A (zh) 2012-03-21
CN102387210B CN102387210B (zh) 2014-04-23

Family

ID=45826170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110325988.5A Active CN102387210B (zh) 2011-10-25 2011-10-25 一种基于快速同步网络的分布式文件系统监控方法

Country Status (1)

Country Link
CN (1) CN102387210B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279070A (zh) * 2015-10-14 2016-01-27 安徽四创电子股份有限公司 用于时间同步装置的总线通信方法及装置
CN106533832A (zh) * 2016-11-14 2017-03-22 中国电子科技集团公司第二十八研究所 一种基于分布式部署的网络流量探测系统
CN107294799A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种分布式系统中节点的处理方法和装置
CN107360025A (zh) * 2017-07-07 2017-11-17 郑州云海信息技术有限公司 一种分布式存储系统集群监控方法及设备
CN109634787A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 分布式文件系统监控器切换方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050099956A1 (en) * 2003-07-11 2005-05-12 Nec Corporation Load distribution type network fault monitoring system and method of broadband router
CN101026490A (zh) * 2007-01-26 2007-08-29 华为技术有限公司 实现业务分发与同步的设备、系统及方法
CN102135929A (zh) * 2010-01-21 2011-07-27 腾讯科技(深圳)有限公司 一种分布式容错服务系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050099956A1 (en) * 2003-07-11 2005-05-12 Nec Corporation Load distribution type network fault monitoring system and method of broadband router
CN101026490A (zh) * 2007-01-26 2007-08-29 华为技术有限公司 实现业务分发与同步的设备、系统及方法
CN102135929A (zh) * 2010-01-21 2011-07-27 腾讯科技(深圳)有限公司 一种分布式容错服务系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279070A (zh) * 2015-10-14 2016-01-27 安徽四创电子股份有限公司 用于时间同步装置的总线通信方法及装置
CN105279070B (zh) * 2015-10-14 2018-05-04 安徽四创电子股份有限公司 用于时间同步装置的总线通信方法及装置
CN107294799A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种分布式系统中节点的处理方法和装置
CN107294799B (zh) * 2016-03-31 2020-09-01 阿里巴巴集团控股有限公司 一种分布式系统中节点的处理方法和装置
CN106533832A (zh) * 2016-11-14 2017-03-22 中国电子科技集团公司第二十八研究所 一种基于分布式部署的网络流量探测系统
CN106533832B (zh) * 2016-11-14 2019-12-06 中国电子科技集团公司第二十八研究所 一种基于分布式部署的网络流量探测系统
CN107360025A (zh) * 2017-07-07 2017-11-17 郑州云海信息技术有限公司 一种分布式存储系统集群监控方法及设备
CN107360025B (zh) * 2017-07-07 2020-11-10 郑州云海信息技术有限公司 一种分布式存储系统集群监控方法及设备
CN109634787A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 分布式文件系统监控器切换方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN102387210B (zh) 2014-04-23

Similar Documents

Publication Publication Date Title
CN102387210B (zh) 一种基于快速同步网络的分布式文件系统监控方法
CN101630298A (zh) 串行总线从设备地址设置系统
CN104320311A (zh) 一种scada分布式平台下的心跳检测方法
CN102394914A (zh) 集群脑裂处理方法和装置
CN102082695A (zh) 热备冗余网络系统及其冗余实现方法
US11329866B2 (en) Battery management system and communication method thereof
CN105204952A (zh) 一种多核操作系统容错管理方法
CN105790825B (zh) 一种分布式保护中控制器热备份的方法和装置
CN106685676A (zh) 一种节点切换方法及装置
CN104092719A (zh) 文件传输方法、装置及分布式集群文件系统
CN110677282B (zh) 一种分布式系统的热备份方法及分布式系统
CN104753712A (zh) 一种告警上报方法、告警上报节点及告警上报系统
CN102664755B (zh) 控制通道故障确定方法及其装置
CN110351139B (zh) 一种电能质量管理系统多机主备实现方法
CN109981404B (zh) 自组网网络结构及其诊断方法
KR20040078113A (ko) 고장에 대처할 수 있는 시간동기 기술
CN106254150B (zh) 网络故障处理方法与系统
CN101771580A (zh) 环状网络冗余检查的处理方法
CN110677316A (zh) 一种分布式存储服务器网卡检测方法和系统
JP4287734B2 (ja) ネットワーク装置
CN109586978B (zh) 总线拓扑网络自组网方法
CN109086292B (zh) 一种数据库的切换方法及系统
KR20110114869A (ko) 결함 허용이 가능한 분산 동기화 방법 및 장치
CN103476053A (zh) 一种基于ZigBee网络的故障设备智能退网方法
CN112040434B (zh) 一种基于传感器网络的复杂环境信息采集方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20170124

Address after: 211106 Jiangning economic and Technological Development Zone, Jiangsu, general Avenue, No. 37, No.

Patentee after: JIANGSU DAWN INFORMATION TECHNOLOGY CO., LTD.

Address before: 100084 Beijing Haidian District City Mill Street No. 64

Patentee before: Dawning Information Industry (Beijing) Co., Ltd.