CN103500140A - 一种快速获知分布式集群节点失效的方法 - Google Patents

一种快速获知分布式集群节点失效的方法 Download PDF

Info

Publication number
CN103500140A
CN103500140A CN201310451856.6A CN201310451856A CN103500140A CN 103500140 A CN103500140 A CN 103500140A CN 201310451856 A CN201310451856 A CN 201310451856A CN 103500140 A CN103500140 A CN 103500140A
Authority
CN
China
Prior art keywords
node
metadata
alarm module
distributed
client modules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310451856.6A
Other languages
English (en)
Inventor
程瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201310451856.6A priority Critical patent/CN103500140A/zh
Publication of CN103500140A publication Critical patent/CN103500140A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种快速获知分布式集群节点失效的方法,属于分布式文件系统领域,包括客户端模块、元数据节点、分布式数据存储节点,客户端模块是访问文件系统的入口,主要是负责用户的数据请求;元数据节点负责存储数据的元数据部分;分布式数据存储节点提供数据存储单元,负责存储数据(去掉元数据之后的数据);告警模块当元数据节点和分布式数据存储节点无法通信时,发出循环告警。本发明能够在调试状态下有效的快速获知节点是否还处于可用状态,从而对已经失效的节点做相应的修理/替换处理,保证文件系统的高可用性。

Description

一种快速获知分布式集群节点失效的方法
 
技术领域   
    本发明涉及分布式文件系统领域,具体地说是一种快速获知分布式集群节点失效的方法。
背景技术
    在分布式集群里,节点失效是经常会遇到的。节点失效后,分布式集群系统通常会对失效节点的数据进行复制与均衡,这会影响正常执行任务的效率。在web状态下,可以通过查看网页监视获知节点是否健康。在无web可用的情况下,如集成调试阶段,只能通过查看日志或进程的方法获知节点是否健康。这就导致可能在节点失效很长一段时间后,影响正常执行任务效率时,才注意到节点已经失效。
发明内容
本发明提供一种快速获知分布式集群节点失效的方法,适用于分布式文件系统的调试阶段中,能够保证文件系统的高可用性。
本发明的技术方案是:该方法适用的体系结构包括:客户端模块、元数据节点、分布式数据存储节点,
客户端模块是访问文件系统的入口,主要是负责用户的数据请求;
元数据节点负责存储数据的元数据部分;
分布式数据存储节点提供数据存储单元,负责存储数据(去掉元数据之后的数
据);
告警模块当元数据节点和分布式数据存储节点无法通信时,发出循环告警;
元数据节点在给分布式数据存储节点发送周期的心跳信息时,若发现无法与彼此连接,则调用告警模块,把循环告警信息直接发送到客户端模块,因此可以立即发现节点失效,做出相应处理;
告警模块的控制采用开关的方式,默认为关闭状态,即在集群启动后任意时间,可以在客户端模块上手动控制告警模块是否可用;如果没有手动开启,则此告警模块不开启;开启后,告警模块的循环告警信息会周期上报客户端模块,直至手动关闭告警模块,循环告警信息也将不再显示在客户端模块上。
    快速获知分布式集群节点失效的方法,其客户端模块在调试阶段,这里特指可敲入用户命令的shell。
    快速获知分布式集群节点失效的方法,其元数据节点通过心跳信息,周期性与分布式数据存储节点进行通信。
本发明与现有技术相比,所产生的有益效果是:
能够在调试状态下有效的快速获知节点是否还处于可用状态,从而对已经失效的节点做相应的修理/替换处理,保证文件系统的高可用性。
附图说明
    附图1为节点通信正常的情况;
    附图2为分布式数据存储节点失效的情况。
具体实施方式
 参照具体实施例对本发明的快速获知分布式集群节点失效方法的详细过程说明,如图所示:
1、首先客户端模块(1)建立与集群文件系统的连接;
2、告警模块(4)默认关闭状态,手动开启告警模块(4)
3、元数据节点(2)给分布式数据存储节点(3)发送周期的心跳信息,分布式数据存储节点(3)收到心跳信息后会发送回执;
4、若分布式数据存储节点(3)没有失效,心跳信息通信过程正常,则不会触发告警模块(4),参见附图(1)的正常状态;
5、在进行心跳信息通信过程中,元数据节点(2)和某一分布式数据存储节点(3)发现无法和彼此相连,则认为该分布式数据存储节点失效
6、元数据节点(2)触发相应的告警模块(4),给客户端模块(1)上报循环告警信息,告警模块(4)的循环告警信息包括失效节点的主机名(hostname)和IP(XX.XX.XX.XX)、告警提示; 
7、在系统进行失效节点数据恢复时,系统性能会降低,影响正常读写效率,尤其影响性能测试。通过立即获取失效节点的信息,可以立即处理失效节点,最大限度的保证系统可用性,保障测试结果正常。
8、为避免刷屏,在解决完失效节点前可以先对告警模块进行关闭,此时客户端模块(1)不再显示循环告警信息。

Claims (3)

1.一种快速获知分布式集群节点失效的方法,其特征在于该方法适用的体系结构包括:客户端模块、元数据节点、分布式数据存储节点,
客户端模块是访问文件系统的入口,主要是负责用户的数据请求;
元数据节点负责存储数据的元数据部分;
分布式数据存储节点提供数据存储单元,负责存储数据(去掉元数据之后的数
据);
     告警模块当元数据节点和分布式数据存储节点无法通信时,发出循环告警;
     元数据节点在给分布式数据存储节点发送周期的心跳信息时,若发现无法与彼此连接,则调用告警模块,把循环告警信息直接发送到客户端模块,因此可以立即发现节点失效,做出相应处理;
    告警模块的控制采用开关的方式,默认为关闭状态,即在集群启动后任意时间,可以在客户端模块上手动控制告警模块是否可用;如果没有手动开启,则此告警模块不开启;开启后,告警模块的循环告警信息会周期上报客户端模块,直至手动关闭告警模块,循环告警信息也将不再显示在客户端模块上。
2.根据权利要求1所述的方法,其特征在于客户端模块在调试阶段,这里特指可敲入用户命令的shell。
3.根据权利要求1所述的方法,其特征在于元数据节点通过心跳信息,周期性与分布式数据存储节点进行通信。
CN201310451856.6A 2013-09-27 2013-09-27 一种快速获知分布式集群节点失效的方法 Pending CN103500140A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310451856.6A CN103500140A (zh) 2013-09-27 2013-09-27 一种快速获知分布式集群节点失效的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310451856.6A CN103500140A (zh) 2013-09-27 2013-09-27 一种快速获知分布式集群节点失效的方法

Publications (1)

Publication Number Publication Date
CN103500140A true CN103500140A (zh) 2014-01-08

Family

ID=49865354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310451856.6A Pending CN103500140A (zh) 2013-09-27 2013-09-27 一种快速获知分布式集群节点失效的方法

Country Status (1)

Country Link
CN (1) CN103500140A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104158843A (zh) * 2014-07-14 2014-11-19 深圳市中博科创信息技术有限公司 分布式文件存储系统的存储单元失效检测方法及装置
CN104734888A (zh) * 2015-03-26 2015-06-24 浪潮集团有限公司 一种文件系统会话缺失的解决方法
WO2016127580A1 (zh) * 2015-02-10 2016-08-18 华为技术有限公司 处理至少一个分布式集群中的故障的方法、设备和系统
CN106133743A (zh) * 2014-02-26 2016-11-16 赛门铁克公司 用于优化预安装应用程序的扫描的系统和方法
CN111225224A (zh) * 2018-11-27 2020-06-02 玲珑视界科技(北京)有限公司 一种网格节点状态的监控系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101471808A (zh) * 2007-12-26 2009-07-01 英业达股份有限公司 一种群集储存系统的报警显示系统及方法
US20090193436A1 (en) * 2008-01-30 2009-07-30 Inventec Corporation Alarm display system of cluster storage system and method thereof
CN101707632A (zh) * 2009-10-28 2010-05-12 浪潮电子信息产业股份有限公司 一种动态监控服务器集群性能并实时报警的方法
CN202551066U (zh) * 2012-03-07 2012-11-21 成都静水飞云科技有限责任公司 云计算集群中失效节点快速定位系统
CN102868736A (zh) * 2012-08-30 2013-01-09 浪潮(北京)电子信息产业有限公司 一种云计算监控框架设计及实现方法及云计算处理设备
CN102932210A (zh) * 2012-11-23 2013-02-13 北京搜狐新媒体信息技术有限公司 一种PaaS云平台的节点监控方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101471808A (zh) * 2007-12-26 2009-07-01 英业达股份有限公司 一种群集储存系统的报警显示系统及方法
US20090193436A1 (en) * 2008-01-30 2009-07-30 Inventec Corporation Alarm display system of cluster storage system and method thereof
CN101707632A (zh) * 2009-10-28 2010-05-12 浪潮电子信息产业股份有限公司 一种动态监控服务器集群性能并实时报警的方法
CN202551066U (zh) * 2012-03-07 2012-11-21 成都静水飞云科技有限责任公司 云计算集群中失效节点快速定位系统
CN102868736A (zh) * 2012-08-30 2013-01-09 浪潮(北京)电子信息产业有限公司 一种云计算监控框架设计及实现方法及云计算处理设备
CN102932210A (zh) * 2012-11-23 2013-02-13 北京搜狐新媒体信息技术有限公司 一种PaaS云平台的节点监控方法和系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106133743A (zh) * 2014-02-26 2016-11-16 赛门铁克公司 用于优化预安装应用程序的扫描的系统和方法
CN106133743B (zh) * 2014-02-26 2019-01-29 赛门铁克公司 用于优化预安装应用程序的扫描的系统和方法
CN104158843A (zh) * 2014-07-14 2014-11-19 深圳市中博科创信息技术有限公司 分布式文件存储系统的存储单元失效检测方法及装置
CN104158843B (zh) * 2014-07-14 2018-01-12 深圳市中博科创信息技术有限公司 分布式文件存储系统的存储单元失效检测方法及装置
WO2016127580A1 (zh) * 2015-02-10 2016-08-18 华为技术有限公司 处理至少一个分布式集群中的故障的方法、设备和系统
US10560315B2 (en) 2015-02-10 2020-02-11 Huawei Technologies Co., Ltd. Method and device for processing failure in at least one distributed cluster, and system
CN104734888A (zh) * 2015-03-26 2015-06-24 浪潮集团有限公司 一种文件系统会话缺失的解决方法
CN104734888B (zh) * 2015-03-26 2018-07-24 浪潮集团有限公司 一种文件系统会话缺失的解决方法
CN111225224A (zh) * 2018-11-27 2020-06-02 玲珑视界科技(北京)有限公司 一种网格节点状态的监控系统及方法

Similar Documents

Publication Publication Date Title
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
US10095576B2 (en) Anomaly recovery method for virtual machine in distributed environment
CN105589776B (zh) 一种故障定位方法及服务器
CN103500140A (zh) 一种快速获知分布式集群节点失效的方法
CN103226598B (zh) 访问数据库的方法和装置以及数据库管理系统
CN103812699A (zh) 基于云计算的监控管理系统
CN104077199B (zh) 基于共享磁盘的高可用集群的隔离方法和系统
CN104252500A (zh) 一种数据库管理平台的故障修复方法和装置
CN102739435A (zh) 作为服务的故障检测与恢复
CN103530200A (zh) 一种服务器热备份系统和方法
CN102708150A (zh) 异步复制数据的方法、装置和系统
CN102075341B (zh) 一种主备同步方法及系统
CN103885860A (zh) 一种应用ipmi命令实现bmc双管理热冗余的方法
CN102902615A (zh) 一种Lustre并行文件系统错误报警方法及其系统
CN106330531A (zh) 节点故障记录和处理的方法以及装置
CN103500138B (zh) 一种电源管理方法、系统及移动终端
CN105306407A (zh) 用户账号登陆方法及装置
CN103457996B (zh) 一种协议一致性测试系统内部数据存储方法及系统
CN113051428B (zh) 一种摄像机前端存储备份的方法及装置
WO2017080362A1 (zh) 数据管理方法及装置
CN102646065A (zh) 具有保护功能的设备上电检测方法及装置
CN109104314B (zh) 一种修改日志配置文件的方法及装置
CN104598202A (zh) 命令行管理装置及方法
CN104734896A (zh) 业务子系统运行情况的获取方法和系统
CN103197981B (zh) 存储空间预警方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140108