CN112596935A - 一种osd故障处理方法及装置 - Google Patents

一种osd故障处理方法及装置 Download PDF

Info

Publication number
CN112596935A
CN112596935A CN202011277812.2A CN202011277812A CN112596935A CN 112596935 A CN112596935 A CN 112596935A CN 202011277812 A CN202011277812 A CN 202011277812A CN 112596935 A CN112596935 A CN 112596935A
Authority
CN
China
Prior art keywords
osd
target
target osd
fault
isolation mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011277812.2A
Other languages
English (en)
Other versions
CN112596935B (zh
Inventor
闵顺新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN202011277812.2A priority Critical patent/CN112596935B/zh
Publication of CN112596935A publication Critical patent/CN112596935A/zh
Application granted granted Critical
Publication of CN112596935B publication Critical patent/CN112596935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及数据存储技术领域,特别涉及一种OSD故障处理方法及装置。该方法包括:在检测到目标OSD故障时,将所述目标OSD设置为下线状态;确定所述目标OSD故障类型,并基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式;若所述目标隔离模式为第一隔离模式,则在将所述目标OSD设置为上线状态之前,对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将所述目标OSD设置为上线状态。

Description

一种OSD故障处理方法及装置
技术领域
本申请涉及数据存储技术领域,特别涉及一种OSD故障处理方法及装置。
背景技术
OSD是ceph集群的基本存储单元,每个OSD皆可提供完整和具有强一致性语义的本地对象存储服务。
OSD震荡是指OSD在故障场景下,状态在up与down之间频繁切换。OSD只有在up状态下,才能承担客户端下发的IO。如果OSD状态长期在up与down之间反复切换将会导致PG状态不健康,从而导致业务归零。
通过分析大量现网以及实验室问题,上述故障场景主要包括但不限于以下几种:软件断言、OSD间心跳报down等。其中OSD心跳报down往往是由于网络异常导致OSD间心跳不通。由此可见,如何避免ceph集群OSD震荡是保证用户业务连续性的关键。
目前,当检测到OSD故障时,OSD进程将直接退出,即OSD会被设置为down状态,后续会基于预设规则将OSD拉起,即将OSD设置为up状态,如果此时故障未解除,就会出现OSD进程频繁退出和拉起的操作,从而导致OSD震荡,进而造成用户业务的中断
发明内容
本申请提供了一种OSD故障处理方法及装置,用以解决现有技术中存在的OSD震荡而导致用户业务中断的问题。
第一方面,本申请提供了一种OSD故障处理方法,所述方法包括:
在检测到目标OSD故障时,将所述目标OSD设置为下线状态;
确定所述目标OSD故障类型,并基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式;
若所述目标隔离模式为第一隔离模式,则在将所述目标OSD设置为上线状态之前,对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将所述目标OSD设置为上线状态。
可选地,所述方法还包括:
若所述目标隔离模式为第二隔离模式,则在所述目标OSD被设置为下线状态后,基于预设规则将所述目标OSD设置为上线状态;
统计所述目标OSD在预设时长内被设置为下线状态的次数,若所述次数大于等于设定阈值,则采用第三隔离模式隔离所述目标OSD,其中,在所述第三隔离模式下,所述目标OSD被设置为下线状态,且不再基于所述预设规则将所述目标OSD设置为上线状态。
可选地,基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式的步骤包括:
若由于检测到心跳连接断开而导致所述目标OSD故障,则确定所述目标OSD的目标隔离模式为第一隔离模式;
若由于检测到软件断言而导致所述目标OSD故障,则确定所述目标OSD的目标隔离模式为第二隔离模式。
可选地,对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将所述目标OSD设置为上线状态的步骤包括:
指示所述目标OSD基于预设频率向其他OSD发送若干心跳报文;
若确定所述目标OSD在发送一个心跳报文后的预设时长内均接收到该一个心跳报文对应的响应报文,则确定故障解除;
将所述目标OSD设置为上线状态。
可选地,所述方法还包括:
在所述第三隔离模式下,若接收到用户触发的将所述目标OSD设置为上线状态的指令,则将所述OSD设置为上线状态。
第二方面,本申请提供了一种OSD故障处理装置,所述装置包括:
设置单元,用于在检测到目标OSD故障时,将所述目标OSD设置为下线状态;
确定单元,用于确定所述目标OSD故障类型,并基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式;
检测单元,若所述目标隔离模式为第一隔离模式,则在所述设置单元将所述目标OSD设置为上线状态之前,所述检测单元对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,所述设置单元将所述目标OSD设置为上线状态。
可选地,所述装置还包括统计单元和隔离单元:
若所述目标隔离模式为第二隔离模式,则在所述目标OSD被所述设置单元设置为下线状态后,所述设置单元基于预设规则将所述目标OSD设置为上线状态;
所述统计单元统计所述目标OSD在预设时长内被设置为下线状态的次数,若所述次数大于等于设定阈值,则所述隔离单元采用第三隔离模式隔离所述目标OSD,其中,在所述第三隔离模式下,所述目标OSD被所述设置单元设置为下线状态,且不再基于所述预设规则将所述目标OSD设置为上线状态。
可选地,基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式时,所述确定单元具体用于:
若由于检测到心跳连接断开而导致所述目标OSD故障,则确定所述目标OSD的目标隔离模式为第一隔离模式;
若由于检测到软件断言而导致所述目标OSD故障,则确定所述目标OSD的目标隔离模式为第二隔离模式。
可选地,对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将所述目标OSD设置为上线状态时,所述检测单元具体用于:
指示所述目标OSD基于预设频率向其他OSD发送若干心跳报文;
若确定所述目标OSD在发送一个心跳报文后的预设时长内均接收到该一个心跳报文对应的响应报文,则确定故障解除;
所述设置单元将所述目标OSD设置为上线状态。
可选地,所述装置还包括接收单元:
在所述第三隔离模式下,若所述接收单元接收到用户触发的将所述目标OSD设置为上线状态的指令,则所述设置单元将所述OSD设置为上线状态。
第三方面,本申请实施例提供一种OSD故障处理装置,该OSD故障处理装置包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如上述第一方面中任一项所述的方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如上述第一方面中任一项所述方法的步骤。
综上可知,本申请实施例提供的OSD故障处理方法,在检测到目标OSD故障时,将所述目标OSD设置为下线状态;确定所述目标OSD故障类型,并基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式;若所述目标隔离模式为第一隔离模式,则在将所述目标OSD设置为上线状态之前,对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将所述目标OSD设置为上线状态。
采用本申请实施例提供的OSD故障处理方法,在检测到OSD故障时,根据OSD故障类型确定对应的隔离模式,从而有效避免由于OSD故障导致的OSD震荡,避免用户业务的中断。
附图说明
为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其他的附图。
图1为本申请实施例提供的一种OSD故障处理方法的详细流程图;
图2为本申请实施例提供的一种OSD故障处理装置的结构示意图;
图3为本申请实施例提供的另一种OSD故障处理装置的结构示意图。
具体实施方式
在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
示例性的,参阅图1所示,为本申请实施例提供的一种OSD故障处理方法的详细流程图,该方法包括以下步骤:
步骤100:在检测到目标OSD故障时,将上述目标OSD设置为下线状态。
实际应用中,软件断言、OSD间心跳报down等均会导致OSD故障,那么,当检测到目标OSD故障时,目标OSD会被报down,即目标OSD会被设置为下线状态(down)。
步骤110:确定上述目标OSD故障类型,并基于上述目标OSD的故障类型,确定上述目标OSD的目标隔离模式。
本申请实施例中,设置有多种隔离模式,可以根据不同OSD故障类型,确定对应的隔离模式,具体地,可以包括第一隔离模式,第二隔离模式和第三隔离模式,其中:
在第一隔离模式下,即确定采用第一隔离模式对目标OSD进行隔离,在目标OSD被报down之后,拉起目标OSD之前,需要对目标OSD故障进行故障原因是否已解除的检测,若检测结果表明故障原因已解除,则执行拉起目标OSD的操作,若检测结果表明故障原因未解除,则暂不执行拉起目标OSD的操作,以避免出现拉起目标OSD后,目标OSD再次down掉,从而导致目标OSD震荡的问题。需要说明的是,在目标OSD故障原因可以通过对应检测手段检测出故障原因是否解除的场景下,采用第一隔离模式对目标OSD进行隔离。
在第二隔离模式下,即确定采用第二隔离模式对目标OSD进行隔离,在目标OSD被报down之后,仍基于预设规则拉起目标OSD,同时开启统计功能,统计目标OSD在预设时长内是否仍被报down以及被报down的次数,若大于等于设定阈值,则确定目标OSD被报down的频率较高,后续不再拉起目标OSD。
在第三隔离模式下,即确定采用第三隔离模式对目标OSD进行隔离,在目标OSD被设置为下线状态之后,不再拉起目标OSD,且不对目标OSD故障进行任何检测操作,只有在接收到用户触发的拉起目标OSD的操作时,才拉起目标OSD。
本申请实施例中,在基于上述目标OSD的故障类型,确定上述目标OSD的目标隔离模式时,一种较佳地实现方式为,若由于检测到心跳连接断开而导致上述目标OSD故障,则确定上述目标OSD的目标隔离模式为第一隔离模式;若由于检测到软件断言而导致上述目标OSD故障,则确定上述目标OSD的目标隔离模式为第二隔离模式。
实际应用中,当OSD间心跳报down后,由于OSD得知自己被报down后会立马向MON发送boot消息而重新up起来,如果此时网络故障没有解除,OSD up起来后还是可能会被心跳报down,从而导致OSD震荡,同样会造成用户业务的中断。然而,本申请实施例中,当网络故障导致目标OSD被报down时,采用第一隔离模式对目标OSD进行隔离,不再向MON发送boot消息以拉起目标OSD,而是插入网络检测,根据检测结果确定是否拉起目标OSD。
实际应用中,当程序出现软件断言后,OSD进程将直接退出,后续将被拉起脚本从后台拉起,继续运行。如果此软件断言命中的概率很高,就会导致OSD进程反复的退出又重启,从而导致OSD震荡,进而导致用户业务中断。本申请实施例中,在确定目标OSD由于软件断言而导致OSD进程退出(即目标OSD down)后,采用第二隔离模式对目标OSD进程隔离。
步骤120:若上述目标隔离模式为第一隔离模式,则在将上述目标OSD设置为上线状态之前,对上述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将上述目标OSD设置为上线状态。
本申请实施例中,在对上述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将上述目标OSD设置为上线状态时,一种较佳地实现方式为,指示上述目标OSD基于预设频率向其他OSD发送若干心跳报文;若确定上述目标OSD在发送一个心跳报文后的预设时长内均接收到该一个心跳报文对应的响应报文,则确定故障解除;将上述目标OSD设置为上线状态。
例如,目标OSD被心跳报down后,进行1分钟的模拟心跳探测,目标OSD每100ms向其他OSD发送一次心跳报文,如果1分钟内所有心跳报文均没有超时(超时阈值150ms),则接入检测通过,目标OSD可以up。从而避免目标OSD随意接入而后续又被心跳报down,进而避免因此导致的业务中断。
本申请实施例中,上述方法还可以包括以下步骤:若上述目标隔离模式为第二隔离模式,则在上述目标OSD被设置为下线状态后,基于预设规则将上述目标OSD设置为上线状态;统计上述目标OSD在预设时长内被设置为下线状态的次数,若上述次数大于等于设定阈值,则采用第三隔离模式隔离上述目标OSD,其中,在上述第三隔离模式下,上述目标OSD被设置为下线状态,且不再基于上述预设规则将上述目标OSD设置为上线状态。
实际应用中,对于软件断言这种故障,由于断言逻辑错综复杂,最好的检测手段就是将OSD拉起,看其是否会继续断言。按照断言频率可以分为以下三种:高频震荡、低频震荡、可恢复。所以针对软件断言,我们需要识别出高频震荡的断言,从而避免OSD高频震荡导致业务中断。
例如,目标OSD软件断言进程退出后会被后台拉起脚本拉起进程,开始统计,如果10分钟触发5次软件断言,则进入强隔离逻辑,即采用第三隔离模式对目标OSD进行隔离,目标OSD将保持down状态不再被拉起,直到人为介入,故障解除才会重新up。
基于与上述方法实施例同样的发明构思,示例性的,参阅图2所示,为本申请实施例提供的一种OSD故障处理装置的结构示意图,该装置包括:
设置单元20,用于在检测到目标OSD故障时,将所述目标OSD设置为下线状态;
确定单元21,用于确定所述目标OSD故障类型,并基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式;
检测单元22,若所述目标隔离模式为第一隔离模式,则在所述设置单元将所述目标OSD设置为上线状态之前,所述检测单元对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,所述设置单元将所述目标OSD设置为上线状态。
可选地,所述装置还包括统计单元和隔离单元:
若所述目标隔离模式为第二隔离模式,则在所述目标OSD被所述设置单元20设置为下线状态后,所述设置单元20基于预设规则将所述目标OSD设置为上线状态;
所述统计单元统计所述目标OSD在预设时长内被设置为下线状态的次数,若所述次数大于等于设定阈值,则所述隔离单元采用第三隔离模式隔离所述目标OSD,其中,在所述第三隔离模式下,所述目标OSD被所述设置单元20设置为下线状态,且不再基于所述预设规则将所述目标OSD设置为上线状态。
可选地,基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式时,所述确定单元21具体用于:
若由于检测到心跳连接断开而导致所述目标OSD故障,则确定所述目标OSD的目标隔离模式为第一隔离模式;
若由于检测到软件断言而导致所述目标OSD故障,则确定所述目标OSD的目标隔离模式为第二隔离模式。
可选地,对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将所述目标OSD设置为上线状态时,所述检测单元22具体用于:
指示所述目标OSD基于预设频率向其他OSD发送若干心跳报文;
若确定所述目标OSD在发送一个心跳报文后的预设时长内均接收到该一个心跳报文对应的响应报文,则确定故障解除;
所述设置单元20将所述目标OSD设置为上线状态。
可选地,所述装置还包括接收单元:
在所述第三隔离模式下,若所述接收单元接收到用户触发的将所述目标OSD设置为上线状态的指令,则所述设置单元20将所述OSD设置为上线状态。
以上这些单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个单元通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些单元可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
进一步地,本申请实施例提供的OSD故障处理装置,从硬件层面而言,所述OSD故障处理装置的硬件架构示意图可以参见图3所示,所述OSD故障处理装置可以包括:存储器30和处理器31,
存储器30用于存储程序指令;处理器31调用存储器30中存储的程序指令,按照获得的程序指令执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种OSD故障处理设备,包括用于执行上述方法实施例的至少一个处理元件(或芯片)。
可选地,本申请还提供一种程序产品,例如计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令用于使该计算机执行上述方法实施例。
这里,机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(RadomAccess Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种OSD故障处理方法,其特征在于,所述方法包括:
在检测到目标OSD故障时,将所述目标OSD设置为下线状态;
确定所述目标OSD故障类型,并基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式;
若所述目标隔离模式为第一隔离模式,则在将所述目标OSD设置为上线状态之前,对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将所述目标OSD设置为上线状态。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
若所述目标隔离模式为第二隔离模式,则在所述目标OSD被设置为下线状态后,基于预设规则将所述目标OSD设置为上线状态;
统计所述目标OSD在预设时长内被设置为下线状态的次数,若所述次数大于等于设定阈值,则采用第三隔离模式隔离所述目标OSD,其中,在所述第三隔离模式下,所述目标OSD被设置为下线状态,且不再基于所述预设规则将所述目标OSD设置为上线状态。
3.如权利要求2所述的方法,其特征在于,基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式的步骤包括:
若由于检测到心跳连接断开而导致所述目标OSD故障,则确定所述目标OSD的目标隔离模式为第一隔离模式;
若由于检测到软件断言而导致所述目标OSD故障,则确定所述目标OSD的目标隔离模式为第二隔离模式。
4.如权利要求1-3任一项所述的方法,其特征在于,对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将所述目标OSD设置为上线状态的步骤包括:
指示所述目标OSD基于预设频率向其他OSD发送若干心跳报文;
若确定所述目标OSD在发送一个心跳报文后的预设时长内均接收到该一个心跳报文对应的响应报文,则确定故障解除;
将所述目标OSD设置为上线状态。
5.如权利要求2或3所述的方法,其特征在于,所述方法还包括:
在所述第三隔离模式下,若接收到用户触发的将所述目标OSD设置为上线状态的指令,则将所述OSD设置为上线状态。
6.一种OSD故障处理装置,其特征在于,所述装置包括:
设置单元,用于在检测到目标OSD故障时,将所述目标OSD设置为下线状态;
确定单元,用于确定所述目标OSD故障类型,并基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式;
检测单元,若所述目标隔离模式为第一隔离模式,则在所述设置单元将所述目标OSD设置为上线状态之前,所述检测单元对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,所述设置单元将所述目标OSD设置为上线状态。
7.如权利要求6所述的装置,其特征在于,所述装置还包括统计单元和隔离单元:
若所述目标隔离模式为第二隔离模式,则在所述目标OSD被所述设置单元设置为下线状态后,所述设置单元基于预设规则将所述目标OSD设置为上线状态;
所述统计单元统计所述目标OSD在预设时长内被设置为下线状态的次数,若所述次数大于等于设定阈值,则所述隔离单元采用第三隔离模式隔离所述目标OSD,其中,在所述第三隔离模式下,所述目标OSD被所述设置单元设置为下线状态,且不再基于所述预设规则将所述目标OSD设置为上线状态。
8.如权利要求7所述的装置,其特征在于,基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式时,所述确定单元具体用于:
若由于检测到心跳连接断开而导致所述目标OSD故障,则确定所述目标OSD的目标隔离模式为第一隔离模式;
若由于检测到软件断言而导致所述目标OSD故障,则确定所述目标OSD的目标隔离模式为第二隔离模式。
9.如权利要求6-7任一项所述的装置,其特征在于,对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将所述目标OSD设置为上线状态时,所述检测单元具体用于:
指示所述目标OSD基于预设频率向其他OSD发送若干心跳报文;
若确定所述目标OSD在发送一个心跳报文后的预设时长内均接收到该一个心跳报文对应的响应报文,则确定故障解除;
所述设置单元将所述目标OSD设置为上线状态。
10.如权利要求7或8所述的装置,其特征在于,所述装置还包括接收单元:
在所述第三隔离模式下,若所述接收单元接收到用户触发的将所述目标OSD设置为上线状态的指令,则所述设置单元将所述OSD设置为上线状态。
CN202011277812.2A 2020-11-16 2020-11-16 一种osd故障处理方法及装置 Active CN112596935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011277812.2A CN112596935B (zh) 2020-11-16 2020-11-16 一种osd故障处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011277812.2A CN112596935B (zh) 2020-11-16 2020-11-16 一种osd故障处理方法及装置

Publications (2)

Publication Number Publication Date
CN112596935A true CN112596935A (zh) 2021-04-02
CN112596935B CN112596935B (zh) 2022-08-30

Family

ID=75183375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011277812.2A Active CN112596935B (zh) 2020-11-16 2020-11-16 一种osd故障处理方法及装置

Country Status (1)

Country Link
CN (1) CN112596935B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170242767A1 (en) * 2014-11-06 2017-08-24 Huawei Technologies Co., Ltd. Distributed storage and replication system and method
CN107547252A (zh) * 2017-06-29 2018-01-05 新华三技术有限公司 一种网络故障处理方法和装置
CN108519927A (zh) * 2018-04-12 2018-09-11 郑州云海信息技术有限公司 一种基于icfs系统的osd故障定位方法及系统
CN109101357A (zh) * 2018-07-20 2018-12-28 广东浪潮大数据研究有限公司 一种osd故障的检测方法及装置
CN109213617A (zh) * 2018-09-25 2019-01-15 郑州云海信息技术有限公司 一种osd故障原因的确定方法、系统及相关组件
WO2020140523A1 (zh) * 2018-12-30 2020-07-09 浙江宇视科技有限公司 数据存储切换方法、装置、设备及存储介质
CN111628893A (zh) * 2020-05-27 2020-09-04 星辰天合(北京)数据科技有限公司 分布式存储系统的故障处理方法及装置、电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170242767A1 (en) * 2014-11-06 2017-08-24 Huawei Technologies Co., Ltd. Distributed storage and replication system and method
CN107547252A (zh) * 2017-06-29 2018-01-05 新华三技术有限公司 一种网络故障处理方法和装置
CN108519927A (zh) * 2018-04-12 2018-09-11 郑州云海信息技术有限公司 一种基于icfs系统的osd故障定位方法及系统
CN109101357A (zh) * 2018-07-20 2018-12-28 广东浪潮大数据研究有限公司 一种osd故障的检测方法及装置
CN109213617A (zh) * 2018-09-25 2019-01-15 郑州云海信息技术有限公司 一种osd故障原因的确定方法、系统及相关组件
WO2020140523A1 (zh) * 2018-12-30 2020-07-09 浙江宇视科技有限公司 数据存储切换方法、装置、设备及存储介质
CN111628893A (zh) * 2020-05-27 2020-09-04 星辰天合(北京)数据科技有限公司 分布式存储系统的故障处理方法及装置、电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAO ZHANG ET AL.: "《A New Approach to Double I/O Performance for Ceph Distributed File System in Cloud Computing》", 《2019 2ND INTERNATIONAL CONFERENCE ON DATA INTELLIGENCE AND SECURITY (ICDIS)》 *
姚明成: "《Ceph异构存储优化机制研究》", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Also Published As

Publication number Publication date
CN112596935B (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN106776253B (zh) 一种界面卡顿监测方法及装置
US10354197B2 (en) Pattern analytics for real-time detection of known significant pattern signatures
US20170091013A1 (en) Pcie error reporting and throttling
US20170139759A1 (en) Pattern analytics for real-time detection of known significant pattern signatures
CN110851294B (zh) 一种程序运行崩溃补救的方法及装置
CN109726821B (zh) 数据均衡方法、装置、计算机可读存储介质及电子设备
CN112579356B (zh) 一种故障处理方法及服务器
US20150113334A1 (en) Determine when an error log was created
CN115981898A (zh) 一种内存可纠错误处理方法、装置、设备及可读存储介质
US20150286514A1 (en) Implementing tiered predictive failure analysis at domain intersections
CN112596935B (zh) 一种osd故障处理方法及装置
CN107018039B (zh) 测试服务器集群性能瓶颈的方法和装置
CN108008800B (zh) 一种复位请求处理方法、装置和设备
CN114610560B (zh) 系统异常监控方法、装置和存储介质
CN107025148B (zh) 一种海量数据的处理方法和装置
CN112988463B (zh) 一种故障节点隔离方法及装置
CN111045832B (zh) 一种软件死循环或阻塞监控的方法及系统
CN108255667B (zh) 一种业务监测方法、装置以及电子设备
CN107870777A (zh) 一种热补丁实现方法及装置、终端
CN111257683B (zh) 静电释放测试的提示方法及装置
CN112162909A (zh) 一种硬盘故障处理方法、装置、设备及机器可读存储介质
CN109857658B (zh) 加速器功能的测试方法、服务器、终端及可读存储介质
CN111240926A (zh) 一种ios卡顿的监控方法及系统
CN113377451B (zh) 应用程序重启方法、装置、计算机设备和可读存储介质
CN114756400B (zh) 一种基于安卓系统的应用程序异常处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant