CN109634787A - 分布式文件系统监控器切换方法、装置、设备及存储介质 - Google Patents

分布式文件系统监控器切换方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109634787A
CN109634787A CN201811543139.5A CN201811543139A CN109634787A CN 109634787 A CN109634787 A CN 109634787A CN 201811543139 A CN201811543139 A CN 201811543139A CN 109634787 A CN109634787 A CN 109634787A
Authority
CN
China
Prior art keywords
monitor
disk
file system
distributed file
error handling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811543139.5A
Other languages
English (en)
Other versions
CN109634787B (zh
Inventor
李彦博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201811543139.5A priority Critical patent/CN109634787B/zh
Publication of CN109634787A publication Critical patent/CN109634787A/zh
Application granted granted Critical
Publication of CN109634787B publication Critical patent/CN109634787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明实施例公开了一种分布式文件系统的监控器切换方法、装置、设备及计算机可读存储介质。其中,方法包括当前监控器所在磁盘发生故障触发磁盘IO错误处理流程并同时触发条件变量,当前监控器接收到磁盘故障信号后,向分布式文件系统的其他各监控器发送磁盘故障信息以触发监控器进行选举,并向磁盘IO错误处理流程反馈信号量信息;磁盘IO错误处理流程接收到当前监控器反馈的信号量信息时结束等待,当前监控器进程退出。本申请可将监控器切换时间控制在毫秒级别,远小于监控器心跳时间,缩短了分布式集群故障时间,从而解决了相关技术中监控器所在磁盘故障后无法对外提供服务导致集群长时间异常的问题,极大提升了分布式集群系统出现故障的容错率。

Description

分布式文件系统监控器切换方法、装置、设备及存储介质
技术领域
本发明实施例涉及分布式集群系统技术领域,特别是涉及一种分布式文件系统的监控器切换方法、装置、设备及计算机可读存储介质。
背景技术
随着云计算、大数据的快速发展,数据呈现爆炸式增长,单纯通过增加硬盘个数来扩展计算机文件系统的存储容量的方式,已经无法满足信息爆炸时代指数倍增长的数据的存储需求,分布式集群系统应用而生。
分布式集群系统(Distributed File System)为基于客户端/服务器模式的文件系统管理的物理存储资源,通过计算机网络与节点相连,可以有效解决数据的存储和管理难题。将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统,众多的节点组成一个文件系统网络。每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输。用户在使用分布式集群系统时,无需关心数据是存储在哪个节点上、或者是从哪个节点从获取的,只需要像使用本地文件系统一样管理和存储文件系统中的数据。
分布式文件系统集群运行时,监控器所在的磁盘故障后,磁盘IO错误,监控器数据读写错误,进程退出,该监控器停止服务。由于监控器直接需要议案进行数据同步,其他监控器会一直等待该监控器回响应,导致造成监控器业务卡主,进而集群出现故障直到其他监控器心跳超时,重新选举成功后,监控器对外提供服务,集群才能恢复正常
由上可知,相关技术在监控器所在磁盘故障后,会出现一段时间的集群异常,这个时间依赖于监控器的超时时间,由于监控器任务繁重,超时时间通常设置较长,导致集群出现故障的时间就比较长。
发明内容
本公开实施例提供了一种分布式文件系统的监控器切换方法、装置、设备及计算机可读存储介质,解决了相关技术中监控器所在磁盘故障后无法对外提供服务导致集群长时间异常的问题。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种分布式文件系统的监控器切换方法,包括:
当接收到磁盘IO错误处理流程发送的磁盘故障信号,向分布式文件系统非当前监控器的其他各监控器发送磁盘故障信息以触发监控器进行选举,并向所述磁盘IO错误处理流程反馈信号量信息;
当所述错误处理流程等待结束,退出进程;
其中,所述磁盘IO错误处理流程为所述当前监控器所在磁盘发生故障时被触发并同时设置条件变量,所述条件变量与所述信号量信息相对应,用于控制所述磁盘IO错误处理流程的等待时间;所述磁盘IO错误处理流程在接收到所述信号量信息时结束等待。
可选的,所述当前监控器读写数据出现错误,则判定所述当前监控器所在磁盘故障。
可选的,所述磁盘故障信号为SIGINT信号。
可选的,所述退出进程之前,还包括:
判断是否接收到监控器选举成功的信息;
若是,则退出进程;
若否,则重新向所述当前监控器发送磁盘故障信号,以使所述当前监控器向分布式文件系统非所述当前监控器的其他各监控器发送磁盘故障信息以触发监控器选举。
可选的,所述判断是否接收到监控器选举成功的信息为在预设时间段内判断是否接收到监控器选举成功的信息,所述预设时间段起始计时时间为所述磁盘故障信号发送时间。
本发明实施例另一方面提供了一种分布式文件系统的监控器切换装置,包括:
错误处理流程触发模块,用于当检测到当前监控器所在磁盘发生故障,触发磁盘IO错误处理流程;所述磁盘IO错误处理流程为所述当前监控器所在磁盘发生故障时被触发并同时设置条件变量,所述条件变量与所述信号量信息相对应,用于控制所述磁盘IO错误处理流程的等待时间;所述磁盘IO错误处理流程在接收到所述信号量信息时结束等待;
磁盘故障信号发送模块,用于向当接收到磁盘IO错误处理流程发送的磁盘故障信号,向分布式文件系统非当前监控器的其他各监控器发送磁盘故障信息以触发进行监控器选举,并向所述磁盘IO错误处理流程反馈信号量信息;
进程退出模块,用于当所述错误处理流程等待结束,退出进程。
可选的,所述错误处理流程触发模块为当当前监控器读写数据出现错误,则判定所述当前监控器所在磁盘发生故障的模块。
可选的,还包括磁盘故障信号处理结果检测模块,用于当预设时间段内未接收到监控器选举成功的信息,则重新向所述当前监控器发送磁盘故障信号,以使所述当前监控器向分布式文件系统非所述当前监控器的其他各监控器发送磁盘故障信息以触发监控器选举;所述预设时间段起始计时时间为所述磁盘故障信号发送时间。
本发明实施例还提供了一种分布式文件系统的监控器切换设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述分布式文件系统的监控器切换方法的步骤。
本发明实施例最后还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有分布式文件系统的监控器切换程序,所述分布式文件系统的监控器切换程序被处理器执行时实现如前任一项所述分布式文件系统的监控器切换方法的步骤。
本申请提供的技术方案的优点在于,在检测到监控器所在磁盘发生故障后,向监控器进程发送磁盘故障信号,监控器进程在收到该信号后,将磁盘故障信息发送给其他监控器,告知其他监控器开始选举,保证最短时间内监控器重新选举,可将监控器切换时间控制在毫秒级别,远小于监控器心跳时间,大大的缩短了分布式集群故障时间,从而解决了相关技术中监控器所在磁盘故障后无法对外提供服务导致集群长时间异常的问题,极大的提升了分布式集群系统出现故障的容错率,适用于对分布式集群系统磁盘故障后快速切换要求的业务场景,使得分布式集群系统的应用更加广泛。
此外,本发明实施例还针对分布式文件系统的监控器切换方法提供了相应的实现装置、设备及计算机可读存储介质,进一步使得所述方法更具有实用性,所述装置、设备及计算机可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种分布式文件系统的监控器切换方法的流程示意图;
图2为本发明实施例提供的分布式文件系统的监控器切换装置的一种具体实施方式结构图;
图3为本发明实施例提供的分布式文件系统的监控器切换装置的另一种具体实施方式结构图;
图4为本发明实施例提供的分布式文件系统的监控器切换设备的一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种分布式文件系统的监控器切换方法的流程示意图,本发明实施例可包括以下内容:
S101:当接收到磁盘IO错误处理流程发送的磁盘故障信号,向分布式文件系统非当前监控器的其他各监控器发送磁盘故障信息以触发监控器进行选举。
S102:向错误处理流程反馈信号量信息。
S103:当错误处理流程等待结束,退出进程。
监控器所在磁盘发生故障后,会触发磁盘IO错误,监控器数据读写也会出现错误,可通过检测到磁盘IO错误或者是监控器数据读写出错作为判定磁盘故障依据。
监控器所在磁盘发生故障后会触发磁盘IO错误处理流程,磁盘IO错误处理流程将磁盘故障信号(例如可为SIGINT信号)发送给监控器进程,同时触发条件变量,开始等待信号处理的结果。条件变量用于控制磁盘IO错误处理流程的等待时间,条件变量与信号量信息相对应,在磁盘IO错误处理流程接收到监控器进程反馈的信号量信息时,结束等待。
监控器预先注册有信号处理函数,监控器进程在接收到磁盘故障信号后,调用该信号处理函数进行处理,将磁盘发生信息发送至分布式文件系统的其他各个监控器,以使这些监控器接收到磁盘故障信息后,重新进行选举,实现监控器的切换。
磁盘IO错误信号处理流程在接收到监控器进程反馈的信号量信息时,表明监控器进行已经将磁盘故障信息发送出去了,触发监控器执行选举操作,也就是是磁盘IO错误处理流程结束,监控器进行了重新选举,选举成功后,新的监控器会替换故障磁盘的监控器,重新对外提供服务,故监控器进程可退出。
在本发明实施例提供的技术方案中,在检测到监控器所在磁盘发生故障后,向监控器进程发送磁盘故障信号,监控器进程在收到该信号后,将磁盘故障信息发送给其他监控器,告知其他监控器开始选举,保证最短时间内监控器重新选举,可将监控器切换时间控制在毫秒级别,远小于监控器心跳时间,大大的缩短了分布式集群故障时间,从而解决了相关技术中监控器所在磁盘故障后无法对外提供服务导致集群长时间异常的问题,极大的提升了分布式集群系统出现故障的容错率,适用于对分布式集群系统磁盘故障后快速切换要求的业务场景,使得分布式集群系统的应用更加广泛。
考虑到异常情况下,监控器进程发送的磁盘故障信息没有发送成功,从而无法触发监控器的选举,导致分布式集群系统异常时间较长,鉴于此,可通过预先设置选举成功后向监控器进程进行反馈,在监控器进程退出之前,还可通过判断是否接收到监控器选举成功的信息;若是,则退出进程;若否,则重新向当前监控器发送磁盘故障信号,以使当前监控器向分布式文件系统非当前监控器的其他各监控器发送磁盘故障信息以触发监控器选举。进一步的,为了缩短集群故障时间,根据分布式集群系统业务运行和集群中监控器个数预估监控器选举所需时间,设置稍大于选举所需时间的预设时间段,预设时间段起始计时时间为磁盘故障信号发送时间。如果在预设时间段内没有收到选举成功的信息,则重新发送磁盘故障信息给各监控器。
由上可知,本发明实施例有利于进一步的缩短集群故障时间,提升集群出现故障的容错率。
本发明实施例还针对分布式文件系统的监控器切换方法提供了相应的实现装置,进一步使得所述方法更具有实用性。下面对本发明实施例提供的分布式文件系统的监控器切换装置进行介绍,下文描述的分布式文件系统的监控器切换装置与上文描述的分布式文件系统的监控器切换方法可相互对应参照。
参见图2,图2为本发明实施例提供的分布式文件系统的监控器切换装置在一种具体实施方式下的结构图,该装置可包括:
错误处理流程触发模块201,用于当检测到当前监控器所在磁盘发生故障,触发磁盘IO错误处理流程;磁盘IO错误处理流程为当前监控器所在磁盘发生故障时被触发并同时设置条件变量,条件变量与信号量信息相对应,用于控制磁盘IO错误处理流程的等待时间;磁盘IO错误处理流程在接收到信号量信息时结束等待。
磁盘故障信号发送模块202,用于向当接收到磁盘IO错误处理流程发送的磁盘故障信号,向分布式文件系统非当前监控器的其他各监控器发送磁盘故障信息以触发进行监控器选举,并向磁盘IO错误处理流程反馈信号量信息。
进程退出模块203,用于当错误处理流程等待结束,退出进程。
可选的,在本实施例的一些实施方式中,请参阅图3,所述装置例如还可以包括磁盘故障信号处理结果检测模块204,用于当预设时间段内未接收到监控器选举成功的信息,则重新向当前监控器发送磁盘故障信号,以使当前监控器向分布式文件系统非当前监控器的其他各监控器发送磁盘故障信息以触发监控器选举;预设时间段起始计时时间为磁盘故障信号发送时间。
可选的,在本实施例的另一些实施方式中,所述错误处理流程触发模块201还可为当当前监控器读写数据出现错误,则判定当前监控器所在磁盘发生故障的模块。
本发明实施例所述分布式文件系统的监控器切换装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可将监控器切换时间控制在毫秒级别,远小于监控器心跳时间,缩短了分布式集群故障时间,从而解决了相关技术中监控器所在磁盘故障后无法对外提供服务导致集群长时间异常的问题,极大的提升了分布式集群系统出现故障的容错率。
本发明实施例还提供了一种分布式文件系统的监控器切换设备4,请参阅图4,可包括:
存储器41,用于存储计算机程序;
处理器42,用于执行计算机程序以实现如上任意一实施例所述分布式文件系统的监控器切换方法的步骤。
本发明实施例所述分布式文件系统的监控器切换设备的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可将监控器切换时间控制在毫秒级别,远小于监控器心跳时间,缩短了分布式集群故障时间,从而解决了相关技术中监控器所在磁盘故障后无法对外提供服务导致集群长时间异常的问题,极大的提升了分布式集群系统出现故障的容错率。
本发明实施例还提供了一种计算机可读存储介质,存储有分布式文件系统的监控器切换程序,所述分布式文件系统的监控器切换程序被处理器执行时如上任意一实施例所述分布式文件系统的监控器切换方法的步骤。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可将监控器切换时间控制在毫秒级别,远小于监控器心跳时间,缩短了分布式集群故障时间,从而解决了相关技术中监控器所在磁盘故障后无法对外提供服务导致集群长时间异常的问题,极大的提升了分布式集群系统出现故障的容错率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种分布式文件系统的监控器切换方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种分布式文件系统的监控器切换方法,其特征在于,包括:
当接收到磁盘IO错误处理流程发送的磁盘故障信号,向分布式文件系统非当前监控器的其他各监控器发送磁盘故障信息以触发监控器进行选举,并向所述磁盘IO错误处理流程反馈信号量信息;
当所述错误处理流程等待结束,退出进程;
其中,所述磁盘IO错误处理流程为所述当前监控器所在磁盘发生故障时被触发并同时设置条件变量,所述条件变量与所述信号量信息相对应,用于控制所述磁盘IO错误处理流程的等待时间;所述磁盘IO错误处理流程在接收到所述信号量信息时结束等待。
2.根据权利要求1所述的分布式文件系统的监控器切换方法,其特征在于,所述当前监控器读写数据出现错误,则判定所述当前监控器所在磁盘故障。
3.根据权利要求2所述的分布式文件系统的监控器切换方法,其特征在于,所述磁盘故障信号为SIGINT信号。
4.根据权利要求1至3任意一项所述的分布式文件系统的监控器切换方法,其特征在于,所述退出进程之前,还包括:
判断是否接收到监控器选举成功的信息;
若是,则退出进程;
若否,则重新向所述当前监控器发送磁盘故障信号,以使所述当前监控器向分布式文件系统非所述当前监控器的其他各监控器发送磁盘故障信息以触发监控器选举。
5.根据权利要求4所述的分布式文件系统的监控器切换方法,其特征在于,所述判断是否接收到监控器选举成功的信息为在预设时间段内判断是否接收到监控器选举成功的信息,所述预设时间段起始计时时间为所述磁盘故障信号发送时间。
6.一种分布式文件系统的监控器切换装置,其特征在于,包括:
错误处理流程触发模块,用于当检测到当前监控器所在磁盘发生故障,触发磁盘IO错误处理流程;所述磁盘IO错误处理流程为所述当前监控器所在磁盘发生故障时被触发并同时设置条件变量,所述条件变量与所述信号量信息相对应,用于控制所述磁盘IO错误处理流程的等待时间;所述磁盘IO错误处理流程在接收到所述信号量信息时结束等待;
磁盘故障信号发送模块,用于向当接收到磁盘IO错误处理流程发送的磁盘故障信号,向分布式文件系统非当前监控器的其他各监控器发送磁盘故障信息以触发进行监控器选举,并向所述磁盘IO错误处理流程反馈信号量信息;
进程退出模块,用于当所述错误处理流程等待结束,退出进程。
7.根据权利要求6所述的分布式文件系统的监控器切换装置,其特征在于,所述错误处理流程触发模块为当当前监控器读写数据出现错误,则判定所述当前监控器所在磁盘发生故障的模块。
8.根据权利要求7所述的分布式文件系统的监控器切换装置,其特征在于,还包括磁盘故障信号处理结果检测模块,用于当预设时间段内未接收到监控器选举成功的信息,则重新向所述当前监控器发送磁盘故障信号,以使所述当前监控器向分布式文件系统非所述当前监控器的其他各监控器发送磁盘故障信息以触发监控器选举;所述预设时间段起始计时时间为所述磁盘故障信号发送时间。
9.一种分布式文件系统的监控器切换设备,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至5任一项所述分布式文件系统的监控器切换方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有分布式文件系统的监控器切换程序,所述分布式文件系统的监控器切换程序被处理器执行时实现如权利要求1至5任一项所述分布式文件系统的监控器切换方法的步骤。
CN201811543139.5A 2018-12-17 2018-12-17 分布式文件系统监控器切换方法、装置、设备及存储介质 Active CN109634787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811543139.5A CN109634787B (zh) 2018-12-17 2018-12-17 分布式文件系统监控器切换方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811543139.5A CN109634787B (zh) 2018-12-17 2018-12-17 分布式文件系统监控器切换方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109634787A true CN109634787A (zh) 2019-04-16
CN109634787B CN109634787B (zh) 2022-04-26

Family

ID=66074620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811543139.5A Active CN109634787B (zh) 2018-12-17 2018-12-17 分布式文件系统监控器切换方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109634787B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111600742A (zh) * 2020-04-02 2020-08-28 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 动态切换分布式存储系统主监视器的方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020042693A1 (en) * 2000-05-02 2002-04-11 Sun Microsystems, Inc. Cluster membership monitor
US20020116151A1 (en) * 1998-10-09 2002-08-22 Sun Microsystems, Inc. Process monitoring in a computer system
CN102387210A (zh) * 2011-10-25 2012-03-21 曙光信息产业(北京)有限公司 一种基于快速同步网络的分布式文件系统监控方法
CN102843259A (zh) * 2012-08-21 2012-12-26 武汉达梦数据库有限公司 集群内中间件自管理热备方法及系统
CN103019889A (zh) * 2012-12-21 2013-04-03 曙光信息产业(北京)有限公司 分布式文件系统及其故障处理方法
CN103607297A (zh) * 2013-11-07 2014-02-26 上海爱数软件有限公司 一种计算机集群系统的故障处理方法
CN104683446A (zh) * 2015-01-29 2015-06-03 广州杰赛科技股份有限公司 一种云存储集群节点服务状态实时监控方法和系统
CN106970851A (zh) * 2016-01-14 2017-07-21 阿里巴巴集团控股有限公司 用于分布式文件系统中磁盘检测处理的方法和设备
CN108810046A (zh) * 2017-04-28 2018-11-13 华为技术有限公司 一种选举领导者Leader的方法、装置及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020116151A1 (en) * 1998-10-09 2002-08-22 Sun Microsystems, Inc. Process monitoring in a computer system
US20020042693A1 (en) * 2000-05-02 2002-04-11 Sun Microsystems, Inc. Cluster membership monitor
CN102387210A (zh) * 2011-10-25 2012-03-21 曙光信息产业(北京)有限公司 一种基于快速同步网络的分布式文件系统监控方法
CN102843259A (zh) * 2012-08-21 2012-12-26 武汉达梦数据库有限公司 集群内中间件自管理热备方法及系统
CN103019889A (zh) * 2012-12-21 2013-04-03 曙光信息产业(北京)有限公司 分布式文件系统及其故障处理方法
CN103607297A (zh) * 2013-11-07 2014-02-26 上海爱数软件有限公司 一种计算机集群系统的故障处理方法
CN104683446A (zh) * 2015-01-29 2015-06-03 广州杰赛科技股份有限公司 一种云存储集群节点服务状态实时监控方法和系统
CN106970851A (zh) * 2016-01-14 2017-07-21 阿里巴巴集团控股有限公司 用于分布式文件系统中磁盘检测处理的方法和设备
CN108810046A (zh) * 2017-04-28 2018-11-13 华为技术有限公司 一种选举领导者Leader的方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111600742A (zh) * 2020-04-02 2020-08-28 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 动态切换分布式存储系统主监视器的方法及系统
CN111600742B (zh) * 2020-04-02 2023-03-24 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 动态切换分布式存储系统主监视器的方法及系统

Also Published As

Publication number Publication date
CN109634787B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
CN106775959B (zh) 分布式事务处理方法和系统
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
US5473771A (en) Fault-tolerant processing system architecture
CN109743358A (zh) 异步消息接口熔断控制方法、装置、计算机设备及存储介质
JP2005209201A (ja) 高可用性クラスタにおけるノード管理
CN109117322A (zh) 一种服务器主备冗余的控制方法、系统、设备及存储介质
CN110187841A (zh) 一种存储系统管理磁盘的方法、装置及存储服务器
CN109728981A (zh) 一种云平台故障监测方法及装置
CN107135097A (zh) 基于簿记建档的容灾系统及容灾方法
CN110489320A (zh) 测试数据的还原方法、装置、终端设备及介质
CN114553900B (zh) 一种分布式块存储管理系统、方法及电子设备
CN109842526A (zh) 一种容灾方法和装置
CN111104283A (zh) 一种分布式存储系统的故障检测方法、装置、设备及介质
CN109634787A (zh) 分布式文件系统监控器切换方法、装置、设备及存储介质
CN110209550A (zh) 存储介质的故障处理方法、装置、电子设备及存储介质
CN102833096B (zh) 一种低成本的高可用系统实现方法及装置
CN109684136A (zh) 一种灵活配置主控的通信架构系统
CN116401122A (zh) 分布式存储系统节点故障的处理方法、系统、装置及介质
CN110351122A (zh) 容灾方法、装置、系统与电子设备
JPH0728667A (ja) 故障許容コンピュータシステム
CN112181705B (zh) 基于多控制器的管理存储控制方法及存储设备
EP4213022B1 (en) Techniques for error handling in a task assignment system with an external pairing system
CN108459943A (zh) 一种基于拼墙系统告警的实时处理方法及装置
CN107423167A (zh) 一种基于双控存储的ISCSI target冗余控制方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant