CN107741966A - 一种节点管理方法及装置 - Google Patents
一种节点管理方法及装置 Download PDFInfo
- Publication number
- CN107741966A CN107741966A CN201710927685.8A CN201710927685A CN107741966A CN 107741966 A CN107741966 A CN 107741966A CN 201710927685 A CN201710927685 A CN 201710927685A CN 107741966 A CN107741966 A CN 107741966A
- Authority
- CN
- China
- Prior art keywords
- node
- access path
- state
- file destination
- destination access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/188—Virtual file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种节点管理方法及装置,上述方法包括以下步骤:获取处于停止响应状态的节点;对所述节点存储的目标文件访问路径进行删除并进行资源清理;若所述节点处于活跃状态,则重新获取所述目标文件访问路径。上述技术方案中,当节点处于停止响应状态时,不对其进行重启,而是对节点的目标文件访问路径进行删除并进行资源清理,在节点处于活跃状态时,重新获取目标文件访问路径,降低了对其它节点的影响,提高了集群文件系统的高可用性,进而提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。
Description
技术领域
本发明涉及云计算技术领域,尤其涉及一种节点管理方法及装置。
背景技术
虚拟化是构建云计算基础架构的关键技术之一,而集群文件系统则在虚拟化中扮演者关键角色,集群文件系统为虚拟化平台提供了海量存储,提供了虚拟机并行访问的能力。
集群文件系统的稳定性直接影响了虚拟化平台的可靠性,相较于本地文件系统如ext3,ext4,xfs等,集群文件系统提供了锁保护、集群心跳等功能,具有更高的复杂度,但是在实际应用环境中,多节点之间的网络状态波动、节点掉电等诸多因素都会直接影响集群文件系统的HA(High Available,高可用性)。
第二代Oracle集群文件系统OCFS2提供了集群管理功能,能够在心跳断开,导致脑裂head-split(当集群中活动的节点由于某种原因停止响应后,其它节点认为它已死而进行资源争夺,从而导致共享磁盘文件损坏的现象)或存储掉线后,根据仲裁策略及时完成对故障节点的处理,从而减少对集群中其他节点的影响;然而,OCFS2只提供了系统panic复位、重启两种处理方式,上述处理方式严重影响了虚拟化平台上运行的虚拟机等业务,大大降低了虚拟化平台的可靠性与稳定性。
因此,迫切需要提供一种节点管理方案来解决上述技术问题。
发明内容
本发明提供一种节点管理方法及装置,以解决上述问题。
本发明实施例提供一种节点管理方法,包括以下步骤:获取处于停止响应状态的节点;
对所述节点存储的目标文件访问路径进行删除并进行资源清理;
若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
本发明实施例还提供一种节点管理装置,包括处理器,适于实现各指令;存储设备,适于存储多条指令,所述指令适于由所述处理器加载并执行;
获取处于停止响应状态的节点;
对所述节点存储的目标文件访问路径进行删除并进行资源清理;
若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
本发明实施例提供的技术方案:获取处于停止响应状态的节点;对所述节点存储的目标文件访问路径进行删除并进行资源清理;若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
上述技术方案中,当节点处于停止响应状态时,不对其进行重启,而是对节点的目标文件访问路径进行删除并进行资源清理,在节点处于活跃状态时,重新获取目标文件访问路径,降低了对其它节点的影响,提高了集群文件系统的高可用性,进而提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明实施例1的节点管理方法流程图;
图2所示为本发明实施例2的节点管理装置结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明能够避免节点重启,并在故障修复时自动完成节点上线恢复运行,提高了虚拟化平台的可靠性。
首先,使得处于停止响应状态的节点不重启而只是心跳离线,从而避免对其它节点带来影响;其次,在用户空间会有监控程序对上述事件进行监控,一旦发生上述事件会强制卸载挂载的文件目录(删除文件访问路径)并完成资源清理,如锁资源等,为后续恢复做准备;再次,监控程序会及时完成故障上报,并时刻监控网络和/或磁盘状态看是否故障恢复,也留给用户进行故障排查的机会;最后,当监控程序发现故障恢复时,会重新完成节点上线及文件目录挂载(重新获取文件访问路径)等工作,使得上述事件影响最小化。
上述方案提高了OCFS2集群文件系统的高可用性,从而大大提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。
具体而言,
Head-split,脑裂:当集群中活动的节点由于某种原因停止响应后,其它节点认为它已死而进行资源争夺,从而导致共享磁盘文件损坏的现象;
Fence机制即“IO屏障”机制:为了防止脑裂而对“故障”节点“屏蔽”的操作。
1、修改fence策略,使得fence发生时,故障节点(处于停止响应状态的节点)不重启而只是心跳离线,从而避免对其它节点带来影响;
这需要修改OCFS2的内核模块源码,在configfs中,为fence_method增加新的选项userdefined;同时在ocfs2的fence行为中,使得fence发生时:
1)令处于停止响应状态的节点的心跳处于离线状态;
2)对所述节点挂载的文件目录cluster进行卸载(删除文件访问路径)并进行锁资源;
3)在通过configfs中新增的fence_status属性来告知用户空间fence事件发生;
4)同时还设置一个delayed work可防止用户空间监控程序不进行fence处理时,强制系统重启。
2、在用户空间会有监控程序对fence事件进行监控,一旦发生fence事件会强制卸载挂载目录并完成资源清理,如锁资源等,为后续恢复做准备,具体步骤如下:
1)监控程序会时刻查看configfs中的fence status选项,一旦发生fence会回复一个ack,告知内核模块用户空间程序将会对fence事件进行处理;
2)对当前已挂载的ocfs2文件系统进行卸载操作;
3)对ocfs2残留资源进行清理;
4)将fence事件进行上报。
其中,步骤2)和步骤3)可以同时执行,在此不用于限定本实施例的保护范围。
3、监控程序进行故障上报,并时刻监控网络和/或磁盘状态看是否故障恢复,当监控程序发现故障恢复时,会重新完成节点上线及文件系统挂载等工作,具体包括:
1)监控程序对网络和/或磁盘状态进行持续监控;
2)当发现状态恢复时,会尝试对节点进行online操作,并完成文件系统挂载;
3)当节点状态改变后,及时上报。
上述方案通过对ocfs2的fence机制进行优化,能够避免fence时节点重启,并在故障修复时自动完成节点上线恢复运行,提高了ocfs2集群文件系统的高可用性,从而大大提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。
图1所示为本发明实施例1的节点管理方法流程图,包括以下步骤:
步骤101:获取处于停止响应状态的节点;
进一步地,导致节点处于停止响应状态的原因包括:磁盘故障、网络故障。
进一步地,获取处于停止响应状态的节点并使所述节点的心跳处于离线状态。
步骤102:对所述节点存储的目标文件访问路径进行删除并进行资源清理;
进一步地,所述资源清理方式包括:锁资源。
步骤103:若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
进一步地,若磁盘故障恢复或网络故障恢复,则所述节点处于活跃状态。
优选地,所述磁盘位于所述节点中。
图2所示为本发明实施例2的节点管理装置结构图,包括处理器,适于实现各指令;存储设备,适于存储多条指令,所述指令适于由所述处理器加载并执行;
获取处于停止响应状态的节点;
对所述节点存储的目标文件访问路径进行删除并进行资源清理;
若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
进一步地,导致节点处于停止响应状态的原因包括:磁盘故障、网络故障。
进一步地,获取处于停止响应状态的节点并使所述节点的心跳处于离线状态。
进一步地,所述资源清理方式包括:锁资源。
进一步地,若磁盘故障恢复或网络故障恢复,则所述节点处于活跃状态。
优选地,所述磁盘位于所述节点中。
上述方案对ocfs2的fence机制进行改进使其能够避免fence时节点重启,并在故障修复时自动完成节点上线恢复运行,保证了系统的高可用性。
本发明实施例提供的技术方案:获取处于停止响应状态的节点;对所述节点存储的目标文件访问路径进行删除并进行资源清理;若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
上述技术方案中,当节点处于停止响应状态时,不对其进行重启,而是对节点的目标文件访问路径进行删除并进行资源清理,在节点处于活跃状态时,重新获取目标文件访问路径,降低了对其它节点的影响,提高了集群文件系统的高可用性,进而提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种节点管理方法,其特征在于,包括以下步骤:
获取处于停止响应状态的节点;
对所述节点存储的目标文件访问路径进行删除并进行资源清理;
若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
2.根据权利要求1所述的节点管理方法,其特征在于,导致节点处于停止响应状态的原因包括:磁盘故障、网络故障。
3.根据权利要求1所述的节点管理方法,其特征在于,获取处于停止响应状态的节点并使所述节点的心跳处于离线状态。
4.根据权利要求1所述的节点管理方法,其特征在于,所述资源清理方式包括:锁资源。
5.根据权利要求1所述的节点管理方法,其特征在于,若磁盘故障恢复或网络故障恢复,则所述节点处于活跃状态。
6.根据权利要求2或5所述的节点管理方法,其特征在于,所述磁盘位于所述节点中。
7.一种节点管理装置,其特征在于,包括处理器,适于实现各指令;存储设备,适于存储多条指令,所述指令适于由所述处理器加载并执行;
获取处于停止响应状态的节点;
对所述节点存储的目标文件访问路径进行删除并进行资源清理;
若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
8.根据权利要求7所述的节点管理装置,其特征在于,导致节点处于停止响应状态的原因包括:磁盘故障、网络故障。
9.根据权利要求7所述的节点管理装置,其特征在于,获取处于停止响应状态的节点并使所述节点的心跳处于离线状态。
10.根据权利要求7所述的节点管理装置,其特征在于,所述资源清理方式包括:锁资源。
11.根据权利要求7所述的节点管理装置,其特征在于,若磁盘故障恢复或网络故障恢复,则所述节点处于活跃状态。
12.根据权利要求8或11所述的节点管理装置,其特征在于,所述磁盘位于所述节点中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710927685.8A CN107741966A (zh) | 2017-09-30 | 2017-09-30 | 一种节点管理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710927685.8A CN107741966A (zh) | 2017-09-30 | 2017-09-30 | 一种节点管理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107741966A true CN107741966A (zh) | 2018-02-27 |
Family
ID=61236687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710927685.8A Pending CN107741966A (zh) | 2017-09-30 | 2017-09-30 | 一种节点管理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107741966A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111124755A (zh) * | 2019-12-06 | 2020-05-08 | 中国联合网络通信集团有限公司 | 集群节点的故障恢复方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103209095A (zh) * | 2013-03-13 | 2013-07-17 | 广东新支点技术服务有限公司 | 一种基于磁盘服务锁的裂脑预防的方法和装置 |
CN105677703A (zh) * | 2015-12-25 | 2016-06-15 | 曙光云计算技术有限公司 | Nas文件系统及其访问方法和装置 |
CN106874136A (zh) * | 2017-02-22 | 2017-06-20 | 郑州云海信息技术有限公司 | 一种存储系统的故障处理方法及装置 |
CN107147540A (zh) * | 2017-07-19 | 2017-09-08 | 郑州云海信息技术有限公司 | 高可用性系统中的故障处理方法和故障处理集群 |
CN107168970A (zh) * | 2016-03-07 | 2017-09-15 | 中兴通讯股份有限公司 | 一种分布式文件系统hdfs的管理方法、装置及系统 |
-
2017
- 2017-09-30 CN CN201710927685.8A patent/CN107741966A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103209095A (zh) * | 2013-03-13 | 2013-07-17 | 广东新支点技术服务有限公司 | 一种基于磁盘服务锁的裂脑预防的方法和装置 |
CN105677703A (zh) * | 2015-12-25 | 2016-06-15 | 曙光云计算技术有限公司 | Nas文件系统及其访问方法和装置 |
CN107168970A (zh) * | 2016-03-07 | 2017-09-15 | 中兴通讯股份有限公司 | 一种分布式文件系统hdfs的管理方法、装置及系统 |
CN106874136A (zh) * | 2017-02-22 | 2017-06-20 | 郑州云海信息技术有限公司 | 一种存储系统的故障处理方法及装置 |
CN107147540A (zh) * | 2017-07-19 | 2017-09-08 | 郑州云海信息技术有限公司 | 高可用性系统中的故障处理方法和故障处理集群 |
Non-Patent Citations (1)
Title |
---|
JUST: "ORACLE RAC深度解析", 《HTTP://BLOG.SINA.COM.CN/S/BLOG_DD61647F0101D2E1.HTML》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111124755A (zh) * | 2019-12-06 | 2020-05-08 | 中国联合网络通信集团有限公司 | 集群节点的故障恢复方法、装置、电子设备及存储介质 |
CN111124755B (zh) * | 2019-12-06 | 2023-08-15 | 中国联合网络通信集团有限公司 | 集群节点的故障恢复方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI746512B (zh) | 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統 | |
CN106254100B (zh) | 一种数据容灾方法、装置和系统 | |
EP2802990B1 (en) | Fault tolerance for complex distributed computing operations | |
US7577720B2 (en) | Migration method for software application in a multi-computing architecture, method for carrying out functional continuity implementing said migration method and multi-computing system provided therewith | |
CN109684032B (zh) | 防脑裂的OpenStack虚拟机高可用计算节点装置及管理方法 | |
CN109656742B (zh) | 一种节点异常处理方法、装置及存储介质 | |
US11892922B2 (en) | State management methods, methods for switching between master application server and backup application server, and electronic devices | |
WO2020113668A1 (zh) | 防脑裂的OpenStack虚拟机高可用管理端装置及管理方法 | |
CN109614201B (zh) | 防脑裂的OpenStack虚拟机高可用系统 | |
CN105577408A (zh) | 一种vnfm容灾保护的方法、装置和nfvo | |
CN113515316A (zh) | 一种新型边缘云操作系统 | |
CN111342986B (zh) | 分布式节点管理方法及装置、分布式系统、存储介质 | |
CN101686261A (zh) | 一种基于rac的冗余服务器系统 | |
CN107741966A (zh) | 一种节点管理方法及装置 | |
CN105988885B (zh) | 基于补偿回滚的操作系统故障自恢复方法 | |
US8812900B2 (en) | Managing storage providers in a clustered appliance environment | |
CN111917588A (zh) | 边缘设备管理方法、装置、边缘网关设备和存储介质 | |
CN112612652A (zh) | 分布式存储系统异常节点重启方法及系统 | |
CN107783855B (zh) | 虚拟网元的故障自愈控制装置及方法 | |
KR101864126B1 (ko) | 지속적인 서비스 제공을 위한 정상상태 모델 기반의 침입감내 시스템 및 그 제어방법 | |
TWI795887B (zh) | 虛擬機器遷移方法、電子設備及存儲介質 | |
US11720455B2 (en) | Method, apparatus, and non-transitory computer readable medium for migrating virtual machines | |
CN109815064B (zh) | 节点隔离方法、装置、节点设备及计算机可读存储介质 | |
CN201491023U (zh) | 一种基于rac的冗余服务器结构 | |
CN117093425A (zh) | 一种数据库高可用的方法、系统、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180227 |