CN107741966A - 一种节点管理方法及装置 - Google Patents

一种节点管理方法及装置 Download PDF

Info

Publication number
CN107741966A
CN107741966A CN201710927685.8A CN201710927685A CN107741966A CN 107741966 A CN107741966 A CN 107741966A CN 201710927685 A CN201710927685 A CN 201710927685A CN 107741966 A CN107741966 A CN 107741966A
Authority
CN
China
Prior art keywords
node
access path
state
file destination
destination access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710927685.8A
Other languages
English (en)
Inventor
李宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710927685.8A priority Critical patent/CN107741966A/zh
Publication of CN107741966A publication Critical patent/CN107741966A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/188Virtual file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种节点管理方法及装置,上述方法包括以下步骤:获取处于停止响应状态的节点;对所述节点存储的目标文件访问路径进行删除并进行资源清理;若所述节点处于活跃状态,则重新获取所述目标文件访问路径。上述技术方案中,当节点处于停止响应状态时,不对其进行重启,而是对节点的目标文件访问路径进行删除并进行资源清理,在节点处于活跃状态时,重新获取目标文件访问路径,降低了对其它节点的影响,提高了集群文件系统的高可用性,进而提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。

Description

一种节点管理方法及装置
技术领域
本发明涉及云计算技术领域,尤其涉及一种节点管理方法及装置。
背景技术
虚拟化是构建云计算基础架构的关键技术之一,而集群文件系统则在虚拟化中扮演者关键角色,集群文件系统为虚拟化平台提供了海量存储,提供了虚拟机并行访问的能力。
集群文件系统的稳定性直接影响了虚拟化平台的可靠性,相较于本地文件系统如ext3,ext4,xfs等,集群文件系统提供了锁保护、集群心跳等功能,具有更高的复杂度,但是在实际应用环境中,多节点之间的网络状态波动、节点掉电等诸多因素都会直接影响集群文件系统的HA(High Available,高可用性)。
第二代Oracle集群文件系统OCFS2提供了集群管理功能,能够在心跳断开,导致脑裂head-split(当集群中活动的节点由于某种原因停止响应后,其它节点认为它已死而进行资源争夺,从而导致共享磁盘文件损坏的现象)或存储掉线后,根据仲裁策略及时完成对故障节点的处理,从而减少对集群中其他节点的影响;然而,OCFS2只提供了系统panic复位、重启两种处理方式,上述处理方式严重影响了虚拟化平台上运行的虚拟机等业务,大大降低了虚拟化平台的可靠性与稳定性。
因此,迫切需要提供一种节点管理方案来解决上述技术问题。
发明内容
本发明提供一种节点管理方法及装置,以解决上述问题。
本发明实施例提供一种节点管理方法,包括以下步骤:获取处于停止响应状态的节点;
对所述节点存储的目标文件访问路径进行删除并进行资源清理;
若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
本发明实施例还提供一种节点管理装置,包括处理器,适于实现各指令;存储设备,适于存储多条指令,所述指令适于由所述处理器加载并执行;
获取处于停止响应状态的节点;
对所述节点存储的目标文件访问路径进行删除并进行资源清理;
若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
本发明实施例提供的技术方案:获取处于停止响应状态的节点;对所述节点存储的目标文件访问路径进行删除并进行资源清理;若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
上述技术方案中,当节点处于停止响应状态时,不对其进行重启,而是对节点的目标文件访问路径进行删除并进行资源清理,在节点处于活跃状态时,重新获取目标文件访问路径,降低了对其它节点的影响,提高了集群文件系统的高可用性,进而提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明实施例1的节点管理方法流程图;
图2所示为本发明实施例2的节点管理装置结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明能够避免节点重启,并在故障修复时自动完成节点上线恢复运行,提高了虚拟化平台的可靠性。
首先,使得处于停止响应状态的节点不重启而只是心跳离线,从而避免对其它节点带来影响;其次,在用户空间会有监控程序对上述事件进行监控,一旦发生上述事件会强制卸载挂载的文件目录(删除文件访问路径)并完成资源清理,如锁资源等,为后续恢复做准备;再次,监控程序会及时完成故障上报,并时刻监控网络和/或磁盘状态看是否故障恢复,也留给用户进行故障排查的机会;最后,当监控程序发现故障恢复时,会重新完成节点上线及文件目录挂载(重新获取文件访问路径)等工作,使得上述事件影响最小化。
上述方案提高了OCFS2集群文件系统的高可用性,从而大大提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。
具体而言,
Head-split,脑裂:当集群中活动的节点由于某种原因停止响应后,其它节点认为它已死而进行资源争夺,从而导致共享磁盘文件损坏的现象;
Fence机制即“IO屏障”机制:为了防止脑裂而对“故障”节点“屏蔽”的操作。
1、修改fence策略,使得fence发生时,故障节点(处于停止响应状态的节点)不重启而只是心跳离线,从而避免对其它节点带来影响;
这需要修改OCFS2的内核模块源码,在configfs中,为fence_method增加新的选项userdefined;同时在ocfs2的fence行为中,使得fence发生时:
1)令处于停止响应状态的节点的心跳处于离线状态;
2)对所述节点挂载的文件目录cluster进行卸载(删除文件访问路径)并进行锁资源;
3)在通过configfs中新增的fence_status属性来告知用户空间fence事件发生;
4)同时还设置一个delayed work可防止用户空间监控程序不进行fence处理时,强制系统重启。
2、在用户空间会有监控程序对fence事件进行监控,一旦发生fence事件会强制卸载挂载目录并完成资源清理,如锁资源等,为后续恢复做准备,具体步骤如下:
1)监控程序会时刻查看configfs中的fence status选项,一旦发生fence会回复一个ack,告知内核模块用户空间程序将会对fence事件进行处理;
2)对当前已挂载的ocfs2文件系统进行卸载操作;
3)对ocfs2残留资源进行清理;
4)将fence事件进行上报。
其中,步骤2)和步骤3)可以同时执行,在此不用于限定本实施例的保护范围。
3、监控程序进行故障上报,并时刻监控网络和/或磁盘状态看是否故障恢复,当监控程序发现故障恢复时,会重新完成节点上线及文件系统挂载等工作,具体包括:
1)监控程序对网络和/或磁盘状态进行持续监控;
2)当发现状态恢复时,会尝试对节点进行online操作,并完成文件系统挂载;
3)当节点状态改变后,及时上报。
上述方案通过对ocfs2的fence机制进行优化,能够避免fence时节点重启,并在故障修复时自动完成节点上线恢复运行,提高了ocfs2集群文件系统的高可用性,从而大大提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。
图1所示为本发明实施例1的节点管理方法流程图,包括以下步骤:
步骤101:获取处于停止响应状态的节点;
进一步地,导致节点处于停止响应状态的原因包括:磁盘故障、网络故障。
进一步地,获取处于停止响应状态的节点并使所述节点的心跳处于离线状态。
步骤102:对所述节点存储的目标文件访问路径进行删除并进行资源清理;
进一步地,所述资源清理方式包括:锁资源。
步骤103:若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
进一步地,若磁盘故障恢复或网络故障恢复,则所述节点处于活跃状态。
优选地,所述磁盘位于所述节点中。
图2所示为本发明实施例2的节点管理装置结构图,包括处理器,适于实现各指令;存储设备,适于存储多条指令,所述指令适于由所述处理器加载并执行;
获取处于停止响应状态的节点;
对所述节点存储的目标文件访问路径进行删除并进行资源清理;
若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
进一步地,导致节点处于停止响应状态的原因包括:磁盘故障、网络故障。
进一步地,获取处于停止响应状态的节点并使所述节点的心跳处于离线状态。
进一步地,所述资源清理方式包括:锁资源。
进一步地,若磁盘故障恢复或网络故障恢复,则所述节点处于活跃状态。
优选地,所述磁盘位于所述节点中。
上述方案对ocfs2的fence机制进行改进使其能够避免fence时节点重启,并在故障修复时自动完成节点上线恢复运行,保证了系统的高可用性。
本发明实施例提供的技术方案:获取处于停止响应状态的节点;对所述节点存储的目标文件访问路径进行删除并进行资源清理;若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
上述技术方案中,当节点处于停止响应状态时,不对其进行重启,而是对节点的目标文件访问路径进行删除并进行资源清理,在节点处于活跃状态时,重新获取目标文件访问路径,降低了对其它节点的影响,提高了集群文件系统的高可用性,进而提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种节点管理方法,其特征在于,包括以下步骤:
获取处于停止响应状态的节点;
对所述节点存储的目标文件访问路径进行删除并进行资源清理;
若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
2.根据权利要求1所述的节点管理方法,其特征在于,导致节点处于停止响应状态的原因包括:磁盘故障、网络故障。
3.根据权利要求1所述的节点管理方法,其特征在于,获取处于停止响应状态的节点并使所述节点的心跳处于离线状态。
4.根据权利要求1所述的节点管理方法,其特征在于,所述资源清理方式包括:锁资源。
5.根据权利要求1所述的节点管理方法,其特征在于,若磁盘故障恢复或网络故障恢复,则所述节点处于活跃状态。
6.根据权利要求2或5所述的节点管理方法,其特征在于,所述磁盘位于所述节点中。
7.一种节点管理装置,其特征在于,包括处理器,适于实现各指令;存储设备,适于存储多条指令,所述指令适于由所述处理器加载并执行;
获取处于停止响应状态的节点;
对所述节点存储的目标文件访问路径进行删除并进行资源清理;
若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
8.根据权利要求7所述的节点管理装置,其特征在于,导致节点处于停止响应状态的原因包括:磁盘故障、网络故障。
9.根据权利要求7所述的节点管理装置,其特征在于,获取处于停止响应状态的节点并使所述节点的心跳处于离线状态。
10.根据权利要求7所述的节点管理装置,其特征在于,所述资源清理方式包括:锁资源。
11.根据权利要求7所述的节点管理装置,其特征在于,若磁盘故障恢复或网络故障恢复,则所述节点处于活跃状态。
12.根据权利要求8或11所述的节点管理装置,其特征在于,所述磁盘位于所述节点中。
CN201710927685.8A 2017-09-30 2017-09-30 一种节点管理方法及装置 Pending CN107741966A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710927685.8A CN107741966A (zh) 2017-09-30 2017-09-30 一种节点管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710927685.8A CN107741966A (zh) 2017-09-30 2017-09-30 一种节点管理方法及装置

Publications (1)

Publication Number Publication Date
CN107741966A true CN107741966A (zh) 2018-02-27

Family

ID=61236687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710927685.8A Pending CN107741966A (zh) 2017-09-30 2017-09-30 一种节点管理方法及装置

Country Status (1)

Country Link
CN (1) CN107741966A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124755A (zh) * 2019-12-06 2020-05-08 中国联合网络通信集团有限公司 集群节点的故障恢复方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103209095A (zh) * 2013-03-13 2013-07-17 广东新支点技术服务有限公司 一种基于磁盘服务锁的裂脑预防的方法和装置
CN105677703A (zh) * 2015-12-25 2016-06-15 曙光云计算技术有限公司 Nas文件系统及其访问方法和装置
CN106874136A (zh) * 2017-02-22 2017-06-20 郑州云海信息技术有限公司 一种存储系统的故障处理方法及装置
CN107147540A (zh) * 2017-07-19 2017-09-08 郑州云海信息技术有限公司 高可用性系统中的故障处理方法和故障处理集群
CN107168970A (zh) * 2016-03-07 2017-09-15 中兴通讯股份有限公司 一种分布式文件系统hdfs的管理方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103209095A (zh) * 2013-03-13 2013-07-17 广东新支点技术服务有限公司 一种基于磁盘服务锁的裂脑预防的方法和装置
CN105677703A (zh) * 2015-12-25 2016-06-15 曙光云计算技术有限公司 Nas文件系统及其访问方法和装置
CN107168970A (zh) * 2016-03-07 2017-09-15 中兴通讯股份有限公司 一种分布式文件系统hdfs的管理方法、装置及系统
CN106874136A (zh) * 2017-02-22 2017-06-20 郑州云海信息技术有限公司 一种存储系统的故障处理方法及装置
CN107147540A (zh) * 2017-07-19 2017-09-08 郑州云海信息技术有限公司 高可用性系统中的故障处理方法和故障处理集群

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUST: "ORACLE RAC深度解析", 《HTTP://BLOG.SINA.COM.CN/S/BLOG_DD61647F0101D2E1.HTML》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124755A (zh) * 2019-12-06 2020-05-08 中国联合网络通信集团有限公司 集群节点的故障恢复方法、装置、电子设备及存储介质
CN111124755B (zh) * 2019-12-06 2023-08-15 中国联合网络通信集团有限公司 集群节点的故障恢复方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN106254100B (zh) 一种数据容灾方法、装置和系统
EP2802990B1 (en) Fault tolerance for complex distributed computing operations
US7577720B2 (en) Migration method for software application in a multi-computing architecture, method for carrying out functional continuity implementing said migration method and multi-computing system provided therewith
CN109684032B (zh) 防脑裂的OpenStack虚拟机高可用计算节点装置及管理方法
CN109656742B (zh) 一种节点异常处理方法、装置及存储介质
US11892922B2 (en) State management methods, methods for switching between master application server and backup application server, and electronic devices
WO2020113668A1 (zh) 防脑裂的OpenStack虚拟机高可用管理端装置及管理方法
CN109614201B (zh) 防脑裂的OpenStack虚拟机高可用系统
CN105577408A (zh) 一种vnfm容灾保护的方法、装置和nfvo
CN113515316A (zh) 一种新型边缘云操作系统
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN101686261A (zh) 一种基于rac的冗余服务器系统
CN107741966A (zh) 一种节点管理方法及装置
CN105988885B (zh) 基于补偿回滚的操作系统故障自恢复方法
US8812900B2 (en) Managing storage providers in a clustered appliance environment
CN111917588A (zh) 边缘设备管理方法、装置、边缘网关设备和存储介质
CN112612652A (zh) 分布式存储系统异常节点重启方法及系统
CN107783855B (zh) 虚拟网元的故障自愈控制装置及方法
KR101864126B1 (ko) 지속적인 서비스 제공을 위한 정상상태 모델 기반의 침입감내 시스템 및 그 제어방법
TWI795887B (zh) 虛擬機器遷移方法、電子設備及存儲介質
US11720455B2 (en) Method, apparatus, and non-transitory computer readable medium for migrating virtual machines
CN109815064B (zh) 节点隔离方法、装置、节点设备及计算机可读存储介质
CN201491023U (zh) 一种基于rac的冗余服务器结构
CN117093425A (zh) 一种数据库高可用的方法、系统、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180227