CN111314443A - 基于分布式存储系统的节点处理方法、装置和设备及介质 - Google Patents
基于分布式存储系统的节点处理方法、装置和设备及介质 Download PDFInfo
- Publication number
- CN111314443A CN111314443A CN202010071065.0A CN202010071065A CN111314443A CN 111314443 A CN111314443 A CN 111314443A CN 202010071065 A CN202010071065 A CN 202010071065A CN 111314443 A CN111314443 A CN 111314443A
- Authority
- CN
- China
- Prior art keywords
- node
- false
- false dead
- detection program
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 61
- 238000001514 detection method Methods 0.000 claims abstract description 47
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008901 benefit Effects 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/51—Discovery or management thereof, e.g. service location protocol [SLP] or web services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开了基于分布式存储系统的节点处理方法、装置和电子设备及计算机可读存储介质,该方法包括:主节点设置检测程序,并降低检测程序的进程优先级至预设检测优先级;当启动检测程序后,利用检测程序获取假死节点的假死节点标记信息;根据假死节点标记信息,将假死节点从检测队列中删除,并向监控器发送假死节点的存储服务信息,以使监控器停止假死节点的存储服务。本申请设置检测程序并降低检测程序的优先级,当该节点假死的时候检测程序无法正常运行后,主节点利用检测程序获取假死节点的假死节点标记信息,实时监控假死节点的存储服务,能够确定假死节点并从检测队列中删除,以使监控器停止假死节点的存储服务,使假死节点的存储服务下线。
Description
技术领域
本申请涉及分布式存储系统技术领域,特别涉及一种基于分布式存储系统的节点处理方法、基于分布式存储系统的节点处理装置、电子设备和计算机可读存储介质。
背景技术
数据存储作为数据资源的核心要素之一也迎来了高速发展的时期。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,不但提高了系统的可靠性、可用性和存取效率,还易于扩展,从而被越来越多的企业单位接受认可。分布式存储系统一般有1到N个节点构成,用以提供高性能、海量数据存储。
在分布式存储组网环境中,个别服务器节点会因为软件、硬件的原因出现假死现象。所谓假死现象,是指Linux内核Alive,但是其上的某个或所有操作的响应变得很慢的现象。具体比较常见的现象有如下几种:能Ping通访问的服务器;系统负载非常的高;SSH不能登陆或者登陆比较慢;服务器上提供的服务都不能正常响应,比如:不能访问系统上部署的Web服务器所提供的页面;在系统上做任何其它操作都没有反应或者反应较慢。系统出现假死现象后,服务器还可以Ping通,但是无法建立新的网络连接。比如:SSH无法连上去。这是由于Ping是在Linux系统底层(Kerne)处理的,并没有参与进程调度。而SSHD是要参与进程调度,但是优先级没OOM机制的Killer进程高。这样就会一直得不到系统调度,从而始终无法正确的提供服务来与SSH客户端建立新的连接。
当服务器假死时,该服务器上的存储服务响应非常迟钝,此时存储服务的心跳不能及时检测到该节点上的存储服务不可用,使整个存储集群的读写性能变得非常低,严重影响前端业务。
因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
发明内容
本申请的目的是提供一种基于分布式存储系统的节点处理方法、基于分布式存储系统的节点处理装置、电子设备和计算机可读存储介质,能够实时监控假死节点的存储服务,及时发现假死节点,使监控器停止假死节点的存储服务,使假死节点的存储服务下线。其具体方案如下:
本申请提供一种基于分布式存储系统的节点处理方法,包括:
主节点设置检测程序,并降低所述检测程序的进程优先级至预设检测优先级;
当启动所述检测程序后,利用所述检测程序获取假死节点的假死节点标记信息;
根据所述假死节点标记信息,将所述假死节点从检测队列中删除,并向监控器发送所述假死节点的存储服务信息,以使所述监控器停止所述假死节点的存储服务。
可选的,所述设置检测程序之前,还包括:
提高SSHD的进程优先级至预设优先级,以使当所述主节点内存剩余小于预设内存时,建立与客户端的网络连接。
可选的,所述根据所述假死节点标记信息,将所述假死节点从检测队列中删除之后,还包括:
当所述客户端对所述假死节点进行调试恢复后,接收到所述假死节点的激活消息;
根据所述激活消息将恢复后的所述假死节点添加至所述检测队列。
可选的,所述当启动所述检测程序后,利用所述检测程序获取假死节点的假死节点标记信息,包括:
所述当启动所述检测程序后,利用所述检测程序向其他从节点发送更新消息,接收到其他所述从节点的反馈信息;
当其他所述从节点未接收到目标节点的反馈信息的次数或者发送所述更消息至所述目标节点的失败次数超过预设次数,则接收到所述从节点发送的所述目标节点是所述假死节点的所述假死节点标志信息。
可选的,所述利用所述检测程序向其他从节点发送更新消息,接收到其他所述从节点的反馈信息之后,还包括:
当未接收到所述目标节点的反馈信息的次数或者发送所述更消息至所述目标节点的失败次数超过预设次数,则将所述目标节点确定为所述假死节点,并获取所述假死节点标记信息。
可选的,所述当启动所述检测程序后,利用所述检测程序获取假死节点的假死节点标记信息之后,还包括:
当从节点判断所述假死节点是所述主节点后,更新后的所述主节点重新建立与所述从节点的连接;
其中,所述更新后的所述主节点是所述从节点根据选举规则与所有节点的状态信息更新的所述主节点。
可选的,所述更新后的所述主节点重新建立与所述从节点的连接之后,还包括:
当所述假死节点激活后,且所述假死节点是更新前的所述主节点,则更新所述主节点,将所述更新前的所述主节点作为当前所述主节点;
将当前所述主节点添加至所述检测队列。
本申请提供一种基于分布式存储系统的节点处理装置,包括:
检测程序优先级设置模块,用于设置检测程序,并降低所述检测程序的进程优先级至预设检测优先级;
假死节点标记信息获取模块,用于当启动所述检测程序后,利用所述检测程序获取假死节点的假死节点标记信息;
假死节点处理模块,用于根据所述假死节点标记信息,将所述假死节点从检测队列中删除,并向监控器发送所述假死节点的存储服务信息,以使所述监控器停止所述假死节点的存储服务。
本申请提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述基于分布式存储系统的节点处理方法的步骤。
本申请提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述基于分布式存储系统的节点处理方法的步骤。
本申请提供一种基于分布式存储系统的节点处理方法,包括:主节点设置检测程序,并降低所述检测程序的进程优先级至预设检测优先级;当启动所述检测程序后,利用所述检测程序获取假死节点的假死节点标记信息;根据所述假死节点标记信息,将所述假死节点从检测队列中删除,并向监控器发送所述假死节点的存储服务信息,以使所述监控器停止所述假死节点的存储服务。
可见,本申请通过设置检测程序并降低检测程序的优先级,当该节点假死的时候检测程序无法正常运行后,主节点利用检测程序获取假死节点的假死节点标记信息,实时监控假死节点的存储服务,能够确定假死节点并将该假死节点从检测队列中删除,以使监控器停止假死节点的存储服务,使假死节点的存储服务下线。
本申请同时还提供了一种基于分布式存储系统的节点处理装置、一种电子设备和计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种基于分布式存储系统的节点处理方法的流程图;
图2为本申请实施例提供的一种假死节点标记信息获取的方法的流程示意图;
图3为本申请实施例提供的一种基于分布式存储系统的节点处理装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中,当服务器假死时,该服务器上的存储服务响应非常迟钝,此时存储服务的心跳不能及时检测到该节点上的存储服务不可用,使整个存储集群的读写性能变得非常低,严重影响前端业务。基于上述技术问题,本实施例提供一种基于分布式存储系统的节点处理方法,能够实时监控假死节点的存储服务,及时发现假死节点,使监控器停止假死节点的存储服务,使假死节点的存储服务下线,具体请参考图1,图1为本申请实施例所提供的一种基于分布式存储系统的节点处理方法的流程图,具体包括:
S110、主节点设置检测程序,并降低检测程序的进程优先级至预设检测优先级。
本实施例中分布式存储系统包括但不限于AS13000存储系,对所有分布式服务器环境适用。可以理解的是,在分布式存储系统中包括多个服务器,每个服务器为一个节点,可以决策选出一个节点作为主节点master,其他节点作为从节点slave,优选地,主节点的选举规则可以是:根据所有节点的IP地址编号的大小确定,可以理解的是每个节点的IP地址编号均不相同,例如,确定IP地址编号中最大的编号对应的节点作为主节点,或者确定IP地址编号中最小的编号对应的节点作为主节点;根据所有节点的编码的大小确定,可以理解的是每个节点的编码均不相同,例如,确定编码的最大值对应的节点作为主节点,或者确定编码的最小值对应的节点作为主节点,当然还有其他的确定方式,本实施例不再进行限定,用户可自定义设置,只要是能够实现本实施例的目的即可。
在主节点设置检测程序,并降低检测程序的进程优先级至预设检测优先级,其中,本实施例不对预设检测优先级进行限定可以是5-10中任意一级。值得注意的是,除了主节点设置检测程序,从节点也均设置检测程序,并降低检测程序的进程优先级至预设检测优先级。可以理解的是,设计一个检测程序运行在每个存储服务器节点上,并将该检测程序的进程优先级调低,以便当节点假死的时候该检测程序无法正常运行,以此确定该节点为假死节点。
进一步的,步骤S110之前,还包括:提高SSHD的进程优先级至预设优先级,以使当主节点内存剩余小于预设内存时,建立与客户端的网络连接。
提高SSHD的进程优先级至预设优先级,使主节点假死后即当主节点内存剩余小于预设内存,能够建立与客户端的网络连接,SSH依然能够登录到该节点,方便维护人员分析定位问题。当然,从节点也提高SSHD的进程优先级至预设优先级,以使当从节点内存剩余小于预设内存时,能够建立与客户端的网络连接。
对应的,根据假死节点标记信息,将假死节点从检测队列中删除之后,还包括:当客户端对假死节点进行调试恢复后,接收到假死节点的激活消息;根据激活消息将恢复后的假死节点添加至检测队列。
当假死节点上被标记为下线状态后,存储集群的管理软件会报出集群异常,此时维护人员可以使用SSH链接到故障节点排查故障原因并及时处理。当客户端对假死节点进行调试恢复后,假死节点恢复正常,假死节点发送激活消息至主节点,主节点接收到假死节点的激活消息后,将恢复后的假死节点添加至检测队列,此时,假死节点能够正常运行,对应的,当假死节点是上一个主节点时,还包括:重新将假死节点确定为主节点,以保证整个集群的管理更加有效的进行,例如,如果检测程序的主节点A假死后恢复,此时当前主节点B收到来自节点A的激活消息后,将节点A添加至检测队列,判断节点A发热IP编号比当前主节点B小,则转交主节点发热角色给节点A,并向其他从节点发出角色转换的通知;其他从节点收到角色转换通知后,重新向主节点A的检测程序建立连接,进行状态交互。
S120、当启动检测程序后,利用检测程序获取假死节点的假死节点标记信息。
启动检测程序后,主节点与从节点利用检测程序相互通信,根据通信的结构确定假死节点,并对假死节点进行标记,利用检测程序发送假死节点标记信息至主节点。
在一种可实现的实施方式中,如图2所示,图2为本申请实施例提供的一种假死节点标记信息获取的方法的流程示意图,包括:
S121、当启动检测程序后,利用检测程序向其他从节点发送更新消息,接收到其他从节点的反馈信息。
具体的,当各个节点的检测程序启动之后,每个节点的检测程序都会定时向其他节点的检测程序发送自己的更新消息即update消息,收到update消息的检测程序会发送相应的反馈信息即reply消息。
进一步的,步骤S121之后还包括:当未接收到目标节点的反馈信息的次数或者发送更消息至目标节点的失败次数超过预设次数,则将目标节点确定为假死节点,并获取假死节点标记信息。
在一种可实现的实施方式中,主节点未接收到目标节点的反馈信息的次数超过预设次数,或者发送更消息至目标节点的失败次数超过预设次数,此时,主节点将目标节点确定为假死节点,并标记该假死节点,同时得到假死节点标记信息。例如,主节点的检测程序超过一定时间和重试次数后,没有收到目标节点的检测程序发来的反馈信息或者在发送更新消息时失败,则主节点的检测程序获取假死节点标记信息。
S122、当其他从节点未接收到目标节点的反馈信息的次数或者发送更消息至目标节点的失败次数超过预设次数,则接收到从节点发送的目标节点是假死节点的假死节点标志信息。
在一种可实现的实施方式中,其他从节点未接收到目标节点的反馈信息的次数超过预设次数,则其他从节点确定目标节点为假死节点,并标记该假死节点,得到假死节点标记信息,从节点将假死节点的假死节点标志信息发送至主节点,主节点接收到假死节点标志信息。例如,如果从节点的检测程序超过一定时间和重试次数后,没有收到目标节点的检测程序发来的反馈信息或者在发送更新消息时失败,则从节点的检测程序向主节点的检测程序发送标记假死的消息标记检测程序所在的目标节点为假死节点。
在一种可实现的实施方式中,步骤S120之后,还包括:当从节点判断假死节点是主节点后,更新后的主节点重新建立与从节点的连接;其中,更新后的主节点是从节点根据选举规则与所有节点的状态信息更新的主节点。
主动状态检测程序的状态转换机制和选举机制,以及发现假死节点是的处理机制。主节点的选举规则可以是:根据所有节点的IP地址编号的大小确定,可以理解的是每个节点的IP地址编号均不相同,例如,确定IP地址编号中最大的编号对应的节点作为主节点,或者确定IP地址编号中最小的编号对应的节点作为主节点;根据所有节点的编码的大小确定,可以理解的是每个节点的编码均不相同,例如,确定编码的最大值对应的节点作为主节点,或者确定编码的最小值对应的节点作为主节点,当然还有其他的确定方式,本实施例不再进行限定,用户可自定义设置,只要是能够实现本实施例的目的即可。通过该方式能够建立标准并且简单的机制保证系统的正常运行。
进一步的,重新建立更新后的主节点与从节点的连接之后,还包括:当假死节点激活后,且假死节点是更新前的主节点,则更新主节点,将更新前的主节点作为当前主节点;将当前主节点添加至检测队列。可以理解的是,当假死节点激活后,主节点将假死节点添加至检测队列。当假死节点是更新前的主节点,则重新更新主节点将更新前的主节点作为当前的主节点,更新前的主节点即激活后的假死节点。例如,在第一时间,节点A作为主节点,当节点A是假死节点后,对主节点进行更新,得到更新后的主节点B;在第二时间,节点A激活后,节点A代替节点B作为当前主节点,并且将节点A添加至检测队列中。通过这种方式能够建立标准的系统运行机制,保证系统正常运行。
S130、根据假死节点标记信息,将假死节点从检测队列中删除,并向监控器发送假死节点的存储服务信息,以使监控器停止假死节点的存储服务。
将假死节点从检测队列中删除,并且向监控器发送假死节点的存储服务信息,存储服务信息包括假死节点不在线信息,以停止假死节点的存储服务,避免了假死节点长期存在对前端业务的影响,降低前端业务的处理性能。可见,本实施例提供的方法,设置状态检测程序实现对假死节点的及时发现,并将假死节点的集群服务标记为不在线,以解决假死节点长时间对前端业务的影响,提高产品的容灾能力和产品的竞争力。
基于上述技术方案,本实施例通过设置检测程序并降低检测程序的优先级,当该节点假死的时候检测程序无法正常运行后,主节点利用检测程序获取假死节点的假死节点标记信息,实时监控假死节点的存储服务,能够确定假死节点并将该假死节点从检测队列中删除,以使监控器停止假死节点的存储服务,使假死节点的存储服务下线。
基于上述实施例,本实施例提供一种具体的基于分布式存储系统的节点处理方法的实施方式,包括:
使用nice命令将所有节点的SSHD的进程优先级调高至预设优先级,这样当系统内存紧张时即当内存剩余小于预设内存时,还能勉强登陆服务器进行调试,然后分析故障;
设计一个检测程序运行在每个存储服务器节点上,并将该检测程序的进程优先级调低至预设检测优先级,以便当节点假死的时候该检测程序无法正常运行。该检测程序主要完成以下动作:
当各个存储节点的检测程序启动之后,决策选出一个作为主节点,其他作为从节点;
每个检测程序都会定时向其他检测程序发送自己的更新消息即update消息,收到update消息的检测程序会发送相应的反馈消息即reply消息;
如果一个检测程序A超过一定时间和重试次数后,没有收到另一个检测程序B发来的reply消息或者在发送update消息时失败,则该检测程序A向master发送标记假死的消息标记检测程序B所在的节点假死;
主节点收到各个从节点标记假死的假死节点标记信息后,根据选举规则并根据当前集群状态,确定哪个从节点是真的假死,标记该从节点为down状态,移出检测队列,并向监控器即monitor发消息标记该节点的存储服务不在线,此时该假死节点不再提供存储服务,因为分布式存储有冗余机制,不会持续影响前端业务;
当假死的节点重新恢复正常后,该从节点的检测程序向主节点的检测程序发一条激活消息,重新加入检测队列;
如果是检测程序的主节点假死,则从节点的检测程序会长时间收不到来自主节点的应答消息或者自己的update消息发送失败,此时剩下的从节点选举出IP地址编号最小的作为主节点,该主节点继续履行职责;
如果检测程序的主节点A假死后恢复,此时当前主节点B收到来自节点A的激活消息后,判断源IP编号比自己小,则转交主节点角色给节点A,并向其他从节点发出角色转换的通知;
其他从节点收到角色转换通知后,重新向主节点A的检测程序建立连接,进行状态交互;
当假死节点上被标记为下线状态后,存储集群的管理软件会报出集群异常,此时维护人员可以使用ssh链接到故障节点排查故障原因并及时处理。
综上可知,基于分布式存储系统节点假死处理方式的设计方法,通过检测程序主动监测个节点的状态,及时发现假死节点并及时上报假死节点的信息给存储的监控器即moniter,标记假死节点上的存储服务下线,达到有节点假死时短时间内轻度影响前端业务的目的。
下面对本申请实施例提供的一种基于分布式存储系统的节点处理装置进行介绍,下文描述的基于分布式存储系统的节点处理装置与上文描述的基于分布式存储系统的节点处理方法可相互对应参照,参考图3,图3为本申请实施例所提供的一种基于分布式存储系统的节点处理装置的结构示意图,包括:
检测程序优先级设置模块310,用于设置检测程序,并降低检测程序的进程优先级至预设检测优先级;
假死节点标记信息获取模块320,用于当启动检测程序后,利用检测程序获取假死节点的假死节点标记信息;
假死节点处理模块330,用于根据假死节点标记信息,将假死节点从检测队列中删除,并向监控器发送假死节点的存储服务信息,以使监控器停止假死节点的存储服务。
可选的,还包括:
SSHD的进程优先级设置模块,用于提高SSHD的进程优先级至预设优先级,以使当主节点内存剩余小于预设内存时,建立与客户端的网络连接。
可选的,还包括:
激活信息接收模块,用于当客户端对假死节点进行调试恢复后,接收到假死节点的激活消息;
节点添加模块,用于根据激活消息将恢复后的假死节点添加至检测队列。
可选的,假死节点标记信息获取模块320,包括:
反馈信息接收单元,用于当启动检测程序后,利用检测程序向其他从节点发送更新消息,接收到其他从节点的反馈信息;
第一假死节点标记信息接收单元,用于当其他从节点未接收到目标节点的反馈信息的次数或者发送更消息至目标节点的失败次数超过预设次数,则接收到从节点发送的目标节点是假死节点的假死节点标志信息。
可选的,假死节点标记信息获取模块320,还包括:
第二假死节点标记信息接收单元,用于当未接收到目标节点的反馈信息的次数或者发送更消息至目标节点的失败次数超过预设次数,则将目标节点确定为假死节点,并获取假死节点标记信息。
可选的,还包括:
连接重新建立模块,用于当从节点判断假死节点是主节点后,更新后的主节点重新建立与从节点的连接;
其中,更新后的主节点是从节点根据选举规则与所有节点的状态信息更新的主节点。
可选的,还包括:
主节点恢复模块,用于当假死节点激活后,且假死节点是更新前的主节点,则更新主节点,将更新前的主节点作为当前主节点;
检测队列添加模块,用于将当前主节点添加至检测队列。
由于基于分布式存储系统的节点处理装置部分的实施例与基于分布式存储系统的节点处理方法部分的实施例相互对应,因此基于分布式存储系统的节点处理装置部分的实施例请参见基于分布式存储系统的节点处理方法部分的实施例的描述,这里暂不赘述。
下面对本申请实施例提供的一种电子设备进行介绍,下文描述的电子设备与上文描述的基于分布式存储系统的节点处理方法可相互对应参照。
本实施例提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述基于分布式存储系统的节点处理方法的步骤。
由于电子设备部分的实施例与基于分布式存储系统的节点处理方法部分的实施例相互对应,因此电子设备部分的实施例请参见基于分布式存储系统的节点处理方法部分的实施例的描述,这里暂不赘述。
下面对本申请实施例提供的一种计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的基于分布式存储系统的节点处理方法可相互对应参照。
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述基于分布式存储系统的节点处理方法的步骤。
由于计算机可读存储介质部分的实施例与基于分布式存储系统的节点处理方法部分的实施例相互对应,因此计算机可读存储介质部分的实施例请参见基于分布式存储系统的节点处理方法部分的实施例的描述,这里暂不赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种基于分布式存储系统的节点处理方法、基于分布式存储系统的节点处理装置、电子设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种基于分布式存储系统的节点处理方法,其特征在于,包括:
主节点设置检测程序,并降低所述检测程序的进程优先级至预设检测优先级;
当启动所述检测程序后,利用所述检测程序获取假死节点的假死节点标记信息;
根据所述假死节点标记信息,将所述假死节点从检测队列中删除,并向监控器发送所述假死节点的存储服务信息,以使所述监控器停止所述假死节点的存储服务。
2.根据权利要求1所述的基于分布式存储系统的节点处理方法,其特征在于,所述设置检测程序之前,还包括:
提高SSHD的进程优先级至预设优先级,以使当所述主节点内存剩余小于预设内存时,建立与客户端的网络连接。
3.根据权利要求2所述的基于分布式存储系统的节点处理方法,其特征在于,所述根据所述假死节点标记信息,将所述假死节点从检测队列中删除之后,还包括:
当所述客户端对所述假死节点进行调试恢复后,接收到所述假死节点的激活消息;
根据所述激活消息将恢复后的所述假死节点添加至所述检测队列。
4.根据权利要求1所述的基于分布式存储系统的节点处理方法,其特征在于,所述当启动所述检测程序后,利用所述检测程序获取假死节点的假死节点标记信息,包括:
所述当启动所述检测程序后,利用所述检测程序向其他从节点发送更新消息,接收到其他所述从节点的反馈信息;
当其他所述从节点未接收到目标节点的反馈信息的次数或者发送所述更消息至所述目标节点的失败次数超过预设次数,则接收到所述从节点发送的所述目标节点是所述假死节点的所述假死节点标志信息。
5.根据权利要求4所述的基于分布式存储系统的节点处理方法,其特征在于,所述利用所述检测程序向其他从节点发送更新消息,接收到其他所述从节点的反馈信息之后,还包括:
当未接收到所述目标节点的反馈信息的次数或者发送所述更消息至所述目标节点的失败次数超过预设次数,则将所述目标节点确定为所述假死节点,并获取所述假死节点标记信息。
6.根据权利要求1所述的基于分布式存储系统的节点处理方法,其特征在于,所述当启动所述检测程序后,利用所述检测程序获取假死节点的假死节点标记信息之后,还包括:
当从节点判断所述假死节点是所述主节点后,更新后的所述主节点重新建立与所述从节点的连接;
其中,所述更新后的所述主节点是所述从节点根据选举规则与所有节点的状态信息更新的所述主节点。
7.根据权利要求6所述的基于分布式存储系统的节点处理方法,其特征在于,所述更新后的所述主节点重新建立与所述从节点的连接之后,还包括:
当所述假死节点激活后,且所述假死节点是更新前的所述主节点,则更新所述主节点,将所述更新前的所述主节点作为当前所述主节点;
将当前所述主节点添加至所述检测队列。
8.一种基于分布式存储系统的节点处理装置,其特征在于,包括:
检测程序优先级设置模块,用于设置检测程序,并降低所述检测程序的进程优先级至预设检测优先级;
假死节点标记信息获取模块,用于当启动所述检测程序后,利用所述检测程序获取假死节点的假死节点标记信息;
假死节点处理模块,用于根据所述假死节点标记信息,将所述假死节点从检测队列中删除,并向监控器发送所述假死节点的存储服务信息,以使所述监控器停止所述假死节点的存储服务。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述基于分布式存储系统的节点处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于分布式存储系统的节点处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010071065.0A CN111314443A (zh) | 2020-01-21 | 2020-01-21 | 基于分布式存储系统的节点处理方法、装置和设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010071065.0A CN111314443A (zh) | 2020-01-21 | 2020-01-21 | 基于分布式存储系统的节点处理方法、装置和设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111314443A true CN111314443A (zh) | 2020-06-19 |
Family
ID=71161595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010071065.0A Withdrawn CN111314443A (zh) | 2020-01-21 | 2020-01-21 | 基于分布式存储系统的节点处理方法、装置和设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111314443A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898158A (zh) * | 2020-07-23 | 2020-11-06 | 百望股份有限公司 | 一种ofd文档的加密方法 |
CN111970329A (zh) * | 2020-07-24 | 2020-11-20 | 苏州浪潮智能科技有限公司 | 一种集群服务的部署方法、系统、设备以及介质 |
CN112463322A (zh) * | 2020-11-24 | 2021-03-09 | 苏州浪潮智能科技有限公司 | 一种分布式系统内的请求的控制方法及相关设备 |
-
2020
- 2020-01-21 CN CN202010071065.0A patent/CN111314443A/zh not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898158A (zh) * | 2020-07-23 | 2020-11-06 | 百望股份有限公司 | 一种ofd文档的加密方法 |
CN111898158B (zh) * | 2020-07-23 | 2023-09-26 | 百望股份有限公司 | 一种ofd文档的加密方法 |
CN111970329A (zh) * | 2020-07-24 | 2020-11-20 | 苏州浪潮智能科技有限公司 | 一种集群服务的部署方法、系统、设备以及介质 |
CN112463322A (zh) * | 2020-11-24 | 2021-03-09 | 苏州浪潮智能科技有限公司 | 一种分布式系统内的请求的控制方法及相关设备 |
CN112463322B (zh) * | 2020-11-24 | 2022-12-27 | 苏州浪潮智能科技有限公司 | 一种分布式系统内的请求的控制方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108430116B (zh) | 断网重连方法、介质、装置和计算设备 | |
CN110535692B (zh) | 故障处理方法、装置、计算机设备、存储介质及存储系统 | |
CN111314443A (zh) | 基于分布式存储系统的节点处理方法、装置和设备及介质 | |
CN106330475B (zh) | 一种通信系统中管理主备节点的方法和装置及高可用集群 | |
CN108173911B (zh) | 一种微服务故障检测处理方法及装置 | |
CN110958151B (zh) | 保活检测方法、装置、节点、存储介质及通信系统 | |
US20130139178A1 (en) | Cluster management system and method | |
Abouzamazem et al. | Efficient inter-cloud replication for high-availability services | |
US20050234919A1 (en) | Cluster system and an error recovery method thereof | |
CN114553867A (zh) | 一种云原生的跨云网络监控方法、装置及存储介质 | |
CN113055203B (zh) | Sdn控制平面的异常恢复方法及装置 | |
CN112994977A (zh) | 一种服务器主机高可用的方法 | |
CN110351122B (zh) | 容灾方法、装置、系统与电子设备 | |
CN117014493A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN112491633B (zh) | 一种多节点集群的故障恢复方法、系统及相关组件 | |
CN113032000A (zh) | 一种智能运营数据管理装置、方法和计算机系统 | |
CN110890989A (zh) | 一种通道连接方法及装置 | |
JP2007272328A (ja) | コンピュータ・システム | |
CN111064608A (zh) | 消息系统的主从切换方法、装置、电子设备及存储介质 | |
CN114422567B (zh) | 数据请求的处理方法、装置、系统、计算机设备及介质 | |
KR101883251B1 (ko) | 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법 | |
US11947431B1 (en) | Replication data facility failure detection and failover automation | |
CN116094938B (zh) | 基于kafka的网络拓扑同步方法、设备、服务器及存储介质 | |
CN112328375B (zh) | 一种用于跟踪分布式系统的数据片段的关联方法和装置 | |
CN115134838A (zh) | 基于5g的upf故障检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200619 |