CN110011854A - Mds故障处理方法、装置、存储系统及计算机可读存储介质 - Google Patents

Mds故障处理方法、装置、存储系统及计算机可读存储介质 Download PDF

Info

Publication number
CN110011854A
CN110011854A CN201910294456.6A CN201910294456A CN110011854A CN 110011854 A CN110011854 A CN 110011854A CN 201910294456 A CN201910294456 A CN 201910294456A CN 110011854 A CN110011854 A CN 110011854A
Authority
CN
China
Prior art keywords
mds
fault
mon
fault type
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910294456.6A
Other languages
English (en)
Other versions
CN110011854B (zh
Inventor
秦楠楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910294456.6A priority Critical patent/CN110011854B/zh
Publication of CN110011854A publication Critical patent/CN110011854A/zh
Application granted granted Critical
Publication of CN110011854B publication Critical patent/CN110011854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种MDS故障处理方法,包括:当接收到MDS故障告警信息时,利用MDS故障告警信息定位MDS故障类型;执行MDS故障类型对应的处理程序;若得到异常处理结果,则按照第一预设路径输出异常处理结果;该方法通过对MDS故障进行分类,并为每种常见的MDS故障类型设置对应的自动化处理程序,以便能够自动处理MDS故障;只有在处理异常即不能自动解除对应的MDS故障时,才会按照第一预设路径输出异常处理结果,以便相关技术人员进行人工排查;大大提高了MDS故障处理效率,降低了对人工依赖;本发明还公开了一种MDS故障处理装置、存储系统及计算机可读存储介质,具有上述有益效果。

Description

MDS故障处理方法、装置、存储系统及计算机可读存储介质
技术领域
本发明涉及存储系统技术领域,特别涉及一种MDS故障处理方法、装置、存储系统及计算机可读存储介质。
背景技术
随着互联网的快速发展,现已进入大数据时代。即数据量急剧增多,海量存储系统的应用变得越来越普及。用户使用基于ICFS(Inspur Cluster File System,分布式文件系统)系统的MDS(主数据服务)。但是由于存储系统功能众多,可能会出现MDS故障的情况。目前,在出现MDS故障时,只能够通过相关研究人员手动分析系统日志来对该MDS故障进行原因定位,进而再根据定位结果确定相应的解决方案。但是这种定位方式不能及时完成故障的修复,影响系统正常使用。
发明内容
本发明的目的是提供一种MDS故障处理方法、装置、存储系统及计算机可读存储介质,能够自动化处理MDS故障,大大提高了MDS故障处理效率,降低了对人工依赖。
为解决上述技术问题,本发明提供一种MDS故障处理方法,包括:
当接收到MDS故障告警信息时,利用所述MDS故障告警信息定位MDS故障类型;
执行所述MDS故障类型对应的处理程序;
若得到异常处理结果,则按照第一预设路径输出所述异常处理结果。
可选地,当所述MDS故障类型为MDS启动失败时,所述执行所述MDS故障类型对应的处理程序,包括:
查看MON集群状态,并判断所述MON集群状态是否异常;
若未异常,则重启MDS,并判断所述MDS是否正常重启;
若正常重启,则所述MDS正常;
若未正常重启,则获取所述MDS对应的日志信息以及所述MDS的core文件作为所述异常处理结果。
可选地,当所述MDS故障类型为MDS震荡时,所述执行所述MDS故障类型对应的处理程序,包括:
停止所有MON,并拷贝MON目录,从所述MON目录中查询当前节点的ssd对应的osd目录,并根据所述osd目录在配置文件中添加MON目录说明;
将修改后的所述配置文件推送到存储系统中所有节点,并启动各个所述节点的MON;
若MDS仍震荡,则执行icfs osd tree命令;
若执行所述icfs osd tree命令后所述MDS仍震荡,则查看元数据池磁盘是否为SSD盘;
若是,则查看MON日志,确定MDS切换次数以及切换时间点;
根据各所述切换时间点,查看对应的MDS日志,判断是否存在错误信息;
若存在,则根据所述错误信息排查问题;
若不存在,则将切换MDS进程节点对应的core文件作为所述异常处理结果。
可选地,当所述MDS故障类型为MDS进程出现laggy or crash时,所述执行所述MDS故障类型对应的处理程序,包括:
获取MDS对应的日志信息以及所述MDS的core文件;
判断所述日志信息中是否存在MDS处理超时信息;
若存在,则停止standby mds,并控制active mds持续处理;
若不存在,将所述日志信息以及所述core文件作为所述异常处理结果。
可选地,当所述MDS故障类型为MDS进程数减少时,所述执行所述MDS故障类型对应的处理程序,包括:
启动未启动的MDS;
获取全部MDS对应的日志信息以及所述全部MDS的core文件作为所述异常处理结果。
可选地,当利用所述MDS故障告警信息不能定位MDS故障类型时,还包括:
获取MDS对应的日志信息以及所述MDS的core文件;
按照第二预设路径输出所述日志信息以及所述core文件。
本发明提供一种MDS故障处理装置,包括:
定位模块,用于当接收到MDS故障告警信息时,利用所述MDS故障告警信息定位MDS故障类型;
故障处理模块,用于执行所述MDS故障类型对应的处理程序;
第一输出模块,用于若得到异常处理结果,则按照第一预设路径输出所述异常处理结果。
可选地,所述MDS故障处理装置,还包括:
第二输出模块,用于当利用所述MDS故障告警信息不能定位MDS故障类型时,获取MDS对应的日志信息以及所述MDS的core文件;按照第二预设路径输出所述日志信息以及所述core文件。
本发明提供一种存储系统,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述所述的MDS故障处理方法的步骤。
本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的MDS故障处理方法的步骤。
本发明所提供的MDS故障处理方法,包括:当接收到MDS故障告警信息时,利用MDS故障告警信息定位MDS故障类型;执行MDS故障类型对应的处理程序;若得到异常处理结果,则按照第一预设路径输出异常处理结果。
可见,该方法通过对MDS故障进行分类,并为每种常见的MDS故障类型设置对应的自动化处理程序,以便能够自动处理MDS故障;只有在处理异常即不能自动解除对应的MDS故障时,才会按照第一预设路径输出异常处理结果,以便相关技术人员根据异常处理结果进行人工排查;该方法中由于大部分常见MDS故障均可以自动化处理,因此大大提高了MDS故障处理效率,及时完成MDS故障的修复,避免影响系统正常使用,且降低了MDS故障处理对人工依赖;本发明还提供了一种MDS故障处理装置、存储系统及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的MDS故障处理方法的流程图;
图2为本发明实施例所提供的MDS故障处理装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,在出现MDS故障时只能够通过相关研究人员手动分析系统日志来对该MDS故障进行原因定位,进而再根据定位结果确定相应的解决方案。但是这种定位方式不能及时完成故障的修复,影响系统正常使用。本实施例通过自动化程序自动对MDS故障进行处理,进而提高了MDS故障处理效率,及时完成MDS故障的修复。具体请参考图1,图1为本发明实施例所提供的MDS故障处理方法的流程图;该方法可以包括:
S101:当接收到MDS故障告警信息时,利用MDS故障告警信息定位MDS故障类型。
需要说明的是,本实施例在接收到MDS故障告警信息,根据MDS故障表现分析定位故障原因即确定MDS故障类型,后续再按照得到的MDS故障类型对应的解决步骤进行MDS故障修复。本实施例中并不限定MDS故障告警信息获取方式,例如可以根据获取的健康状态信息,来确定MDS服务的运行情况,当MDS服务运行异常时,则认为接收到MDS故障告警信息。此时可以利用MDS故障告警信息定位MDS故障类型。
也就是说本实施例中提前确定了几种MDS故障类型以及各自对应的故障修复程序即处理程序。进而在确定MDS故障类型后就可以执行MDS故障类型对应的处理程序,以实现自动化修复MDS故障。本实施例中并不限定MDS故障类型的数量,例如可以包含常见的MDS启动失败、MDS震荡、MDS进程出现laggy or crash以及MDS进程数减少等故障。进而本实施例也不限定利用MDS故障告警信息定位MDS故障类型的方式。例如其可以根据每种MDS故障类型的特征也就是具体表现情况,确定对应的MDS故障告警信息内容。进而可以在MDS故障告警信息中出现对应内容时确定其MDS故障类型。
当然,为了保证管理员(如研究人员、相关技术人员)能够及时了解到MDS服务运行情况,可以在接收到MDS故障告警信息时,通过短信告警、邮件告警、SNMP告警等方式向管理员提供MDS服务异常的告警信息。
进一步,为了保证存储系统状态正常,在执行具体处理程序之前,也就是MDS故障处理前,可以检测并记录存储系统以及各个存储节点的状态,在处理程序执行完成后,可以再次检测并记录存储系统以及各个存储节点的状态,以确保处理程序执行完成后存储系统正常,即存储系统以及各个存储节点的状态均为正常。
进一步,如有无法获知MDS故障的原因,即无法确定MDS故障类型时,需要相关人员结合系统日志进行后续进一步的检测定位,进而得到处理方案。本实施例并不对具体系统日志内容进行限定,可以是存储系统全部的系统日志,也可以是MDS对应的日志信息,或者是MDS对应的日志信息以及MDS的core文件。即优选的,当利用MDS故障告警信息不能定位MDS故障类型时还可以包括:获取MDS对应的日志信息以及MDS的core文件;按照第二预设路径输出日志信息以及core文件。以便相关人员在接收到信息时,根据这些信息确定MDS故障原因,提供具体的MDS故障解决方案。
本实施例并不对第二预设路径和第一预设路径进行限定,两者可以是相同的,当然也可以不同,用户可以根据实际情况进行限定。具体路径可以包含邮件,短信以及SNMP等任意组合。
S102:执行MDS故障类型对应的处理程序。
当本实施例中通过步骤S101确定了当前MDS故障类型时,根据已知MDS故障类型对应的处理程序进行判断排除,直接定位问题,当不能解决该MDS故障即不能定位问题并解决时,可以按照第一预设路径输出异常处理结果。通常情况下,已知MDS故障类型对应的解决方案比较固定,可以利用各自对应的处理程序实现自动化MDS故障修复。本实施例并不对具体的各个MDS故障类型对应的处理程序进行限定,只要可以解决该MDS故障类型对应的MDS故障即可。
具体的,当MDS故障类型为MDS启动失败时,执行MDS故障类型对应的处理程序可以包括:
查看MON集群状态,并判断MON集群状态是否异常;
若未异常,则重启MDS,并判断MDS是否正常重启;
若正常重启,则MDS正常;
若未正常重启,则获取MDS对应的日志信息以及MDS的core文件作为异常处理结果。
具体的,造成MDS启动失败的原因可能是MON未启动。必须要保证先启动MON,再启动MDS,然后启动osd。如果MON还未启动时,就先启动MDS,则会启动失败。因此,在出现MDS启动失败故障时,首先要确定MON是否启动。即查看MON集群状态,并判断MON集群状态是否异常。例如使用icfs mon dump命令查看MON集群状态是否异常;若异常,则可以参照MON故障处理进行修复;若未异常,则重启MDS,并判断MDS是否正常重启。即在MON集群正常时,则重新启动MDS,观察MDS是否可以正常启动。具体可以是使用systemctl restart icfs-mds.target命令重启MDS。若MDS可以正常启动,则证明当前MDS正常,MDS启动失败的故障已经修复。若未正常重启,则获取MDS对应的日志信息以及MDS的core文件作为异常处理结果。若重启后MDS仍不能够正常启动,则证明MDS启动失败的故障还未修复,此时需要获取相关信息,以便相关人员可以修复该MDS故障。此时为了便于相关人员可以快速对该MDS故障进行修复,可以将处理程序得到的异常处理结果发送给相关人员,避免相关人员手动查询相关信息,节省修复时间。此时异常处理结果可以包含MDS对应的日志信息以及MDS的core文件,通过这两个信息相关人员可以对该MDS故障进行定位修复。具体的,获取MDS对应的日志信息以及MDS的core文件的过程可以是:查看问题MDS日志信息以及/var/log/下是否有core文件,可用file/var/log/core*命令查看是否是MDS进程的core文件,输出中有“icfs-mds”表示是MDS的core文件。
当MDS故障类型为MDS震荡时,执行MDS故障类型对应的处理程序可以包括:
停止所有MON,并拷贝MON目录,从MON目录中查询当前节点的ssd对应的osd目录,并根据osd目录在配置文件中添加MON目录说明;
将修改后的配置文件推送到存储系统中所有节点,并启动各个节点的MON;
若MDS仍震荡,则执行icfs osd tree命令;
若执行icfs osd tree命令后MDS仍震荡,则查看元数据池磁盘是否为SSD盘;
若是,则查看MON日志,确定MDS切换次数以及切换时间点;
根据各切换时间点,查看对应的MDS日志,判断是否存在错误信息;
若存在,则根据错误信息排查问题;
若不存在,则将切换MDS进程节点对应的core文件作为异常处理结果。
具体的,MDS震荡即icfs-s中fsmap显示MDS进程在不断切换,即MDS状态在频繁变化。造成MDS震荡的原因可能为:MON故障导致MDS震荡、元数据池未分离、mds进程切换active过程中异常以及mds处理超时导致震荡。本实施例可以同时对这四种原因进行检测,当然也可以按照这四种原因发生的概率大小依次处理,也可以是按照用户指定处理顺序进行处理,如上述具体过程即按照MON故障导致MDS震荡、元数据池未分离、mds进程切换active过程中异常以及mds处理超时导致震荡的顺序进行处理。
其中,在处理MON故障导致MDS震荡时,需要避免MON频繁切换MDS。具体处理过程可以是:停止所有MON服务(具体利用systemctl stop icfs-mon@*停止MON服务),并可以执行ps-ef|grep icfs-mon检查MON服务是否已停止。当确定MON服务停止时,拷贝MON目录,具体的,找到当前节点的ssd对应的osd目录;例如,元数据盘为osd.0时:可以根据cp-rf/var/lib/icfs/mon/icfs-inspur01/var/lib/icfs/osd/icfs-0/找到当前节点的ssd对应的osd目录。通过添加MON目录说明来修改配置文件,具体的,当修改配置文件icfs.conf,添加MON目录说明具体可以是:
[mon.inspur01]
mon_data=/var/lib/icfs/osd/icfs-0/$cluster-$id
将修改后的配置文件推送到存储系统中所有节点。例如以5个节点为例,推送过程可以是:icfs-deploy--overwrite-conf admin inspur01 inspur02 inspur03 inspur04inspur05。启动各个节点的MON,此时启动时执行start,不用restart,即systemctl starticfs-mon@*。
此时,MON故障导致MDS震荡处理完毕,若此时启动后MDS故障克服即可以结束。当启动后MDS故障未解决,此时需要处理元数据池未分离导致的MDS震荡。具体可以是通过执行icfs osd tree命令使得元数据池分离。具体的,当执行完icfs osd tree命令,存在TYPE为root,NAME为mpool_root的行,则表明设置了元数据池分离。
此时若MDS故障未解决,则需要执行后两个原因,即查看元数据池磁盘是否为SSD盘;具体的,使用smartctl-x/dev/sdX(sdX为查看的盘符)命令查看元数据池磁盘是否为SSD盘,输出中有“Rotation Rate:Solid State Device”则是SSD盘。查看MON日志看MDS切换次数以及切换时间点;具体的,在/var/log/icfs/icfs-mon.*日志文件中过滤MDS关键字,输出中“up:replay”的行表示MDS开始切换。依据MON日志查看对应时间点和对应MDS日志,判断是否有错误信息;若有错误信息则根据错误信息排查问题。若没有错误信息或者是不能修复错误信息对应的问题,则将切换MDS进程节点对应的core文件作为异常处理结果。具体的,查看切换MDS进程节点/var/log/目录下有无MDS的core文件。可用file/var/log/core*命令查看是否是MDS进程core文件,输出中有“icfs-mds”表示是MDS的core文件。
当MDS故障类型为MDS进程出现laggy or crash时,执行MDS故障类型对应的处理程序可以包括:
获取MDS对应的日志信息以及MDS的core文件;
判断日志信息中是否存在MDS处理超时信息;
若存在,则停止standby mds,并控制active mds持续处理;
若不存在,将日志信息以及core文件作为异常处理结果。
具体的,当MDS进程出现laggy or crash,其原因可能是mds core、元数据集群mds全active状态下mds处理超时。此时,查看问题MDS日志信息以及/var/log/下是否有core文件。可用file/var/log/core*命令查看是否是MDS进程core文件,输出中有“icfs-mds”表示是MDS的core文件。当获取了MDS对应的日志信息以及MDS的core文件之后,判断日志信息中是否存在MDS处理超时信息;具体的,看MDS日志中是否有“timed out”信息,该信息表明MDS处理超时,此时可以停止standby mds,让active mds一直处理即可。若不存在MDS处理超时信息,可以输出日志信息以及core文件,以使相关人员利用core文件帮助进行异常分析,其中,core文件可以在日志收集时同时收集core文件。当然,此时也可以重启MDS,看是否能够通过重启恢复active。
当MDS故障类型为MDS进程数减少时,执行MDS故障类型对应的处理程序可以包括:启动未启动的MDS;获取全部MDS对应的日志信息以及全部MDS的core文件作为异常处理结果。
具体的,造成MDS进程数减少的原因可能是mds core。此时可以收集日志并在收集日之后启动未启动的MDS,看是否可以增加MDS数量。收集日志的过程可以参考上述几个MDS故障类型的中的日志收集过程。即查看问题MDS日志信息以及/var/log/下是否有core文件。可用file/var/log/core*命令查看是否是MDS进程core文件,输出中有“icfs-mds”表示是MDS的core文件。其中,core文件可以在日志收集时同时收集core文件。
S103:若得到异常处理结果,则按照第一预设路径输出异常处理结果。
本实施例中通过第一预设路径将得到的可以用于深入排查问题的日志等信息作为异常处理结果输出给相关人员,以便相关人员结合系统日志进行后续进一步的MDS故障定位,缩短MDS故障定位时间,避免影响业务使用。即本实施例能够对MDS故障出现后及时解决该MDS故障提供了具体性的指导方案,保障产品的售后服务。
基于上述技术方案,本发明实施例提供的MDS故障处理方法,该方法通过对MDS故障进行分类,并为每种常见的MDS故障类型设置对应的自动化处理程序,以便能够自动处理MDS故障;只有在处理异常即不能自动解除对应的MDS故障时,才会按照第一预设路径输出异常处理结果,以便相关技术人员根据异常处理结果进行人工排查;该方法中由于大部分常见MDS故障均可以自动化处理,因此大大提高了MDS故障处理效率,及时完成MDS故障的修复即缩短了MDS故障定位和解决的时间,避免影响系统正常使用,且降低了MDS故障处理对人工依赖,提高了集群性能。
下面对本发明实施例提供的MDS故障处理装置、存储系统及计算机可读存储介质进行介绍,下文描述的MDS故障处理装置、存储系统及计算机可读存储介质与上文描述的MDS故障处理方法可相互对应参照。
请参考图2,图2为本发明实施例所提供的MDS故障处理装置的结构框图;该装置可以包括:
定位模块100,用于当接收到MDS故障告警信息时,利用MDS故障告警信息定位MDS故障类型;
故障处理模块200,用于执行MDS故障类型对应的处理程序;
第一输出模块300,用于若得到异常处理结果,则按照第一预设路径输出异常处理结果。
基于上述实施例,故障处理模块200可以包括:
第一故障处理单元,用于当MDS故障类型为MDS启动失败时,查看MON集群状态,并判断MON集群状态是否异常;若未异常,则重启MDS,并判断MDS是否正常重启;若正常重启,则MDS正常;若未正常重启,则获取MDS对应的日志信息以及MDS的core文件作为异常处理结果。
第二故障处理单元,用于当MDS故障类型为MDS震荡时,停止所有MON,并拷贝MON目录,从MON目录中查询当前节点的ssd对应的osd目录,并根据osd目录在配置文件中添加MON目录说明;将修改后的配置文件推送到存储系统中所有节点,并启动各个节点的MON;若MDS仍震荡,则执行icfs osd tree命令;若执行icfs osd tree命令后MDS仍震荡,则查看元数据池磁盘是否为SSD盘;若是,则查看MON日志,确定MDS切换次数以及切换时间点;根据各切换时间点,查看对应的MDS日志,判断是否存在错误信息;若存在,则根据错误信息排查问题;若不存在,则将切换MDS进程节点对应的core文件作为异常处理结果。
第三故障处理单元,用于当MDS故障类型为MDS进程出现laggy or crash时,获取MDS对应的日志信息以及MDS的core文件;判断日志信息中是否存在MDS处理超时信息;若存在,则停止standby mds,并控制active mds持续处理;若不存在,将日志信息以及core文件作为异常处理结果。
第四故障处理单元,用于当MDS故障类型为MDS进程数减少时,启动未启动的MDS;获取全部MDS对应的日志信息以及全部MDS的core文件作为异常处理结果。
基于上述任意实施例,该装置还可以包括:
第二输出模块,用于当利用MDS故障告警信息不能定位MDS故障类型时,获取MDS对应的日志信息以及MDS的core文件;按照第二预设路径输出日志信息以及core文件。
需要说明的是,基于上述任意实施例,装置可以是基于可编程逻辑器件实现的,可编程逻辑器件包括FPGA,CPLD,单片机、处理器等。该装置可以是在存储系统中。
本发明实施例还提供一种存储系统,包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序时实现上述任意实施例所述的MDS故障处理方法的步骤。如处理器用于执行计算机程序时实现当接收到MDS故障告警信息时,利用MDS故障告警信息定位MDS故障类型;执行MDS故障类型对应的处理程序;若得到异常处理结果,则按照第一预设路径输出异常处理结果。
具体的,该存储系统可以是ICFS系统。
本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任意实施例所述的MDS故障处理方法的步骤。如计算机程序被处理器执行时实现当接收到MDS故障告警信息时,利用MDS故障告警信息定位MDS故障类型;执行MDS故障类型对应的处理程序;若得到异常处理结果,则按照第一预设路径输出异常处理结果。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种MDS故障处理方法、装置、存储系统及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种MDS故障处理方法,其特征在于,包括:
当接收到MDS故障告警信息时,利用所述MDS故障告警信息定位MDS故障类型;
执行所述MDS故障类型对应的处理程序;
若得到异常处理结果,则按照第一预设路径输出所述异常处理结果。
2.根据权利要求1所述的MDS故障处理方法,其特征在于,当所述MDS故障类型为MDS启动失败时,所述执行所述MDS故障类型对应的处理程序,包括:
查看MON集群状态,并判断所述MON集群状态是否异常;
若未异常,则重启MDS,并判断所述MDS是否正常重启;
若正常重启,则所述MDS正常;
若未正常重启,则获取所述MDS对应的日志信息以及所述MDS的core文件作为所述异常处理结果。
3.根据权利要求1所述的MDS故障处理方法,其特征在于,当所述MDS故障类型为MDS震荡时,所述执行所述MDS故障类型对应的处理程序,包括:
停止所有MON,并拷贝MON目录,从所述MON目录中查询当前节点的ssd对应的osd目录,并根据所述osd目录在配置文件中添加MON目录说明;
将修改后的所述配置文件推送到存储系统中所有节点,并启动各个所述节点的MON;
若MDS仍震荡,则执行icfs osd tree命令;
若执行所述icfs osd tree命令后所述MDS仍震荡,则查看元数据池磁盘是否为SSD盘;
若是,则查看MON日志,确定MDS切换次数以及切换时间点;
根据各所述切换时间点,查看对应的MDS日志,判断是否存在错误信息;
若存在,则根据所述错误信息排查问题;
若不存在,则将切换MDS进程节点对应的core文件作为所述异常处理结果。
4.根据权利要求1所述的MDS故障处理方法,其特征在于,当所述MDS故障类型为MDS进程出现laggy or crash时,所述执行所述MDS故障类型对应的处理程序,包括:
获取MDS对应的日志信息以及所述MDS的core文件;
判断所述日志信息中是否存在MDS处理超时信息;
若存在,则停止standby mds,并控制active mds持续处理;
若不存在,将所述日志信息以及所述core文件作为所述异常处理结果。
5.根据权利要求1所述的MDS故障处理方法,其特征在于,当所述MDS故障类型为MDS进程数减少时,所述执行所述MDS故障类型对应的处理程序,包括:
启动未启动的MDS;
获取全部MDS对应的日志信息以及所述全部MDS的core文件作为所述异常处理结果。
6.根据权利要求1所述的MDS故障处理方法,其特征在于,当利用所述MDS故障告警信息不能定位MDS故障类型时,还包括:
获取MDS对应的日志信息以及所述MDS的core文件;
按照第二预设路径输出所述日志信息以及所述core文件。
7.一种MDS故障处理装置,其特征在于,包括:
定位模块,用于当接收到MDS故障告警信息时,利用所述MDS故障告警信息定位MDS故障类型;
故障处理模块,用于执行所述MDS故障类型对应的处理程序;
第一输出模块,用于若得到异常处理结果,则按照第一预设路径输出所述异常处理结果。
8.根据权利要求7所述的MDS故障处理装置,其特征在于,还包括:
第二输出模块,用于当利用所述MDS故障告警信息不能定位MDS故障类型时,获取MDS对应的日志信息以及所述MDS的core文件;按照第二预设路径输出所述日志信息以及所述core文件。
9.一种存储系统,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述的MDS故障处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的MDS故障处理方法的步骤。
CN201910294456.6A 2019-04-12 2019-04-12 Mds故障处理方法、装置、存储系统及计算机可读存储介质 Active CN110011854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910294456.6A CN110011854B (zh) 2019-04-12 2019-04-12 Mds故障处理方法、装置、存储系统及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910294456.6A CN110011854B (zh) 2019-04-12 2019-04-12 Mds故障处理方法、装置、存储系统及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110011854A true CN110011854A (zh) 2019-07-12
CN110011854B CN110011854B (zh) 2022-03-04

Family

ID=67171444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910294456.6A Active CN110011854B (zh) 2019-04-12 2019-04-12 Mds故障处理方法、装置、存储系统及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110011854B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515820A (zh) * 2019-08-29 2019-11-29 北京浪潮数据技术有限公司 一种服务器故障维护方法、装置、服务器及存储介质
CN113687971A (zh) * 2021-08-24 2021-11-23 杭州迪普科技股份有限公司 内存映象文件的生成方法及装置
CN113886122A (zh) * 2021-09-30 2022-01-04 济南浪潮数据技术有限公司 一种系统运行异常处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515796A (zh) * 2017-07-31 2017-12-26 北京奇安信科技有限公司 一种设备异常监控处理方法及装置
CN108776625A (zh) * 2018-06-26 2018-11-09 郑州云海信息技术有限公司 一种服务故障的修复方法、装置和存储介质
CN109002478A (zh) * 2018-06-19 2018-12-14 郑州云海信息技术有限公司 分布式文件系统的故障处理方法及相关设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515796A (zh) * 2017-07-31 2017-12-26 北京奇安信科技有限公司 一种设备异常监控处理方法及装置
CN109002478A (zh) * 2018-06-19 2018-12-14 郑州云海信息技术有限公司 分布式文件系统的故障处理方法及相关设备
CN108776625A (zh) * 2018-06-26 2018-11-09 郑州云海信息技术有限公司 一种服务故障的修复方法、装置和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LUCIEN168: "常见 MON 故障处理", 《HTTPS://BLOG.CSDN.NET/WEIXIN_44389885/ARTICLE/DETAILS/101478566》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515820A (zh) * 2019-08-29 2019-11-29 北京浪潮数据技术有限公司 一种服务器故障维护方法、装置、服务器及存储介质
CN110515820B (zh) * 2019-08-29 2022-07-08 北京浪潮数据技术有限公司 一种服务器故障维护方法、装置、服务器及存储介质
CN113687971A (zh) * 2021-08-24 2021-11-23 杭州迪普科技股份有限公司 内存映象文件的生成方法及装置
CN113886122A (zh) * 2021-09-30 2022-01-04 济南浪潮数据技术有限公司 一种系统运行异常处理方法、装置、设备及存储介质
CN113886122B (zh) * 2021-09-30 2024-03-01 济南浪潮数据技术有限公司 一种系统运行异常处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110011854B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
CN104685830B (zh) 故障管理的方法、实体和系统
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN110011854A (zh) Mds故障处理方法、装置、存储系统及计算机可读存储介质
CN111290918A (zh) 服务器运行状态监控方法、装置及计算机可读存储介质
CN109947596A (zh) Pcie设备故障系统宕机处理方法、装置及相关组件
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
CN108845912B (zh) 服务接口调用故障的报警方法及计算设备
CN108768758A (zh) 分布式存储系统在线升级方法、装置、设备及存储介质
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN104636242A (zh) 一种基于Linux操作系统的系统日志自动删除重复内容的方法
KR20180072860A (ko) 디바이스 드라이버 검출 에러들의 자가 진단 및 자동 진단 데이터 수집
CN115033419B (zh) 一种实现硬件故障自愈的方法和系统
JPH0950424A (ja) ダンプ採取装置およびダンプ採取方法
WO2019061364A1 (zh) 故障分析方法及相关设备
CN108958965A (zh) 一种bmc监控可恢复ecc错误的方法、装置及设备
CN109474470A (zh) 一种自监控方法和装置
CN108519927A (zh) 一种基于icfs系统的osd故障定位方法及系统
CN107729217A (zh) 一种数据库异常处理方法和终端
CN109992476A (zh) 一种日志的分析方法、服务器及存储介质
CN113568878A (zh) 一种系统日志的收集、导出方法、装置及车辆
CN113392079B (zh) 一种分布式存储集群日志存储优化方法、系统及终端
CN114490802A (zh) 一种时序数据管理方法、装置、设备及可读存储介质
CN112685370B (zh) 一种日志采集方法、装置、设备和介质
CN115080309A (zh) 数据备份系统、方法、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant