CN108958960A - 分布式存储集群中坏盘定位方法、装置、设备及存储介质 - Google Patents
分布式存储集群中坏盘定位方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN108958960A CN108958960A CN201810834185.4A CN201810834185A CN108958960A CN 108958960 A CN108958960 A CN 108958960A CN 201810834185 A CN201810834185 A CN 201810834185A CN 108958960 A CN108958960 A CN 108958960A
- Authority
- CN
- China
- Prior art keywords
- low
- quality disk
- storage cluster
- distributed storage
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0727—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/325—Display of status information by lamps or LED's
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本申请公开了一种分布式存储集群中坏盘定位方法、装置、设备及存储介质,该方法包括:通过在分布式存储集群中各个节点之间配置互信、无密码访问;在任何一个节点上运行一个定时任务,定时依次访问所述分布式存储集群中的各个节点并执行检测坏盘的指令;当发现坏盘时立即将坏盘的定位灯点亮。本申请通过自动化检测,及时发现并定位坏盘,自动将该坏盘的定位灯点亮,这样机房运维工程师只需要到机房将定位灯亮灯的磁盘换成新盘即可,可以减少运维工程师定时在分布式存储集群中的大量磁盘中筛选坏盘的工作量,提高存储系统在市场化中的可维护,易维护性,减少运维成本,提高产品竞争力。
Description
技术领域
本发明涉及分布式存储技术领域,特别是涉及一种分布式存储集群中坏盘定位方法、装置、设备及存储介质。
背景技术
目前,随着现在海量数据的产生,通常会用一组阵列或者分布式存储系统来存储这些海量数据。阵列或者分布式存储系统都包含了大量的磁盘。如一套分布式存储系统,对外提供4PB的存储空间,大约需要27台36盘位的存储节点,约需要1000块6TB的硬盘,随着存储空间的增加,磁盘的数据也会相应的增加。所以在以上存储系统中磁盘数据量越多,出现坏盘的概率就越大。
同时客户现场机房环境不一,如通风不好,电源不稳定等等因素也减少了磁盘的使用寿命,使得坏盘概率大大增加。
由于以上情况,为了保证数据不丢失,保证存储容量不减少,减少数据恢复带来的存储压力,应及时发现坏盘,并及时更新坏盘。但是随着存储节点的增加,磁盘数量增加,单纯通过运维工程师来排查坏盘这是一项庞大的工作量。
发明内容
有鉴于此,本发明的目的在于提供一种分布式存储集群中坏盘定位方法、装置、设备及存储介质,可以减少运维工程师定时在分布式存储集群中的大量磁盘中筛选坏盘的工作量,提高存储系统在市场化中的可维护。其具体方案如下:
一种分布式存储集群中坏盘定位方法,包括:
通过在分布式存储集群中各个节点之间配置互信、无密码访问;
在任何一个节点上运行一个定时任务,定时依次访问所述分布式存储集群中的各个节点并执行检测坏盘的指令;
当发现坏盘时立即将坏盘的定位灯点亮。
优选地,在本发明实施例提供的上述分布式存储集群中坏盘定位方法中,在将坏盘的定位灯点亮的同时,还包括:
将检测到的坏盘信息记录到运行所述定时任务的节点中的坏盘日志中。
优选地,在本发明实施例提供的上述分布式存储集群中坏盘定位方法中,还包括:
当未发现坏盘时,继续访问下一个节点;
一直定时轮询。
本发明实施例还提供了一种分布式存储集群中坏盘定位装置,包括:
节点间配置模块,用于通过在分布式存储集群中各个节点之间配置互信、无密码访问;
坏盘检测模块,用于在任何一个节点上运行一个定时任务,定时依次访问所述分布式存储集群中的各个节点并执行检测坏盘的指令;
定位灯点亮模块,用于当发现坏盘时立即将坏盘的定位灯点亮。
优选地,在本发明实施例提供的上述分布式存储集群中坏盘定位装置中,还包括:
信息记录模块,用于将检测到的坏盘信息记录到运行所述定时任务的节点中的坏盘日志中。
优选地,在本发明实施例提供的上述分布式存储集群中坏盘定位装置中,还包括:
节点访问模块,用于当未发现坏盘时,继续访问下一个节点;一直定时轮询。
本发明实施例还提供了一种自动定位分布式存储集群中坏盘的设备,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如本发明实施例提供的上述分布式存储集群中坏盘定位方法。
本发明实施例还提供了一种计算机可读存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如本发明实施例提供的上述分布式存储集群中坏盘定位方法。
本发明所提供的一种分布式存储集群中坏盘定位方法、装置、设备及存储介质,该方法包括:通过在分布式存储集群中各个节点之间配置互信、无密码访问;在任何一个节点上运行一个定时任务,定时依次访问所述分布式存储集群中的各个节点并执行检测坏盘的指令;当发现坏盘时立即将坏盘的定位灯点亮。本发明通过自动化检测,及时发现并定位坏盘,自动将该坏盘的定位灯点亮,这样机房运维工程师只需要到机房将定位灯亮灯的磁盘换成新盘即可,可以减少运维工程师定时在分布式存储集群中的大量磁盘中筛选坏盘的工作量,提高存储系统在市场化中的可维护,易维护性,减少运维成本,提高产品竞争力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的分布式存储集群中坏盘定位方法的流程图;
图2为本发明实施例提供的分布式存储集群中坏盘定位方法的具体流程图;
图3为本发明实施例提供的自动定位分布式存储集群中坏盘的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种分布式存储集群中坏盘定位方法,如图1所示,包括以下步骤:
S101、通过在分布式存储集群中各个节点之间配置互信、无密码访问;
S102、在任何一个节点上运行一个定时任务,定时依次访问所述分布式存储集群中的各个节点并执行检测坏盘的指令;
S103、当发现坏盘时立即将坏盘的定位灯点亮。
在本发明实施例提供的上述分布式存储集群中坏盘定位方法中,以图2为例,首先通过在分布式存储集群中各个节点(如节点1、节点2、节点3、节点4)之间配置互信、无密码访问;然后在任何一个节点(如节点1)上运行一个定时任务,该节点(节点1)定时依次访问所述分布式存储集群中的各个节点并执行检测坏盘的指令;最后当发现坏盘时立即将坏盘的定位灯点亮。本发明通过自动化检测,及时发现并定位坏盘,自动将该坏盘的定位灯点亮,这样机房运维工程师只需到机房通过查看物理节点上哪些磁盘的定位灯被点亮来确定坏盘位置,只要将定位灯亮灯的磁盘换成新盘即可,可以减少运维工程师定时在分布式存储集群中的大量磁盘中筛选坏盘的工作量,提高存储系统在市场化中的可维护,易维护性,减少运维成本,提高产品竞争力。
进一步地,在具体实施时,在本发明实施例提供的上述分布式存储集群中坏盘定位方法中,如图2所示,在将坏盘的定位灯点亮的同时,还可以包括:将检测到的坏盘信息记录到运行所述定时任务的节点(如节点1)中的坏盘日志中。这样主动收集坏盘信息保存到坏盘日志中,用户或管理员通过查看坏盘日志就可以获知当前哪些节点上有哪些坏盘,运维工程师只需要关注坏盘日志文件即可。
更进一步地,在具体实施时,在本发明实施例提供的上述分布式存储集群中坏盘定位方法中,如图2所示,还可以包括:当未发现坏盘时,继续访问下一个节点;一直定时轮询。以此检测出整个分布式存储集群中所有坏盘的位置,检测效率高。
基于同一发明构思,本发明实施例还提供了一种自动定位分布式存储集群中坏盘的装置,由于该自动定位分布式存储集群中坏盘的装置解决问题的原理与前述一种分布式存储集群中坏盘定位方法相似,因此该自动定位分布式存储集群中坏盘的装置的实施可以参见分布式存储集群中坏盘定位方法的实施,重复之处不再赘述。
在具体实施时,本发明实施例提供的分布式存储集群中坏盘定位装置,如图3所示,具体包括:
节点间配置模块11,用于通过在分布式存储集群中各个节点之间配置互信、无密码访问;
坏盘检测模块12,用于在任何一个节点上运行一个定时任务,定时依次访问所述分布式存储集群中的各个节点并执行检测坏盘的指令;
定位灯点亮模块13,用于当发现坏盘时立即将坏盘的定位灯点亮。
在本发明实施例提供的上述分布式存储集群中坏盘定位装置中,可以通过上述三个模块的相互作用,定时访问分布式存储集群中各节点,并检测坏盘,同时将坏盘的定位灯点亮,节省了运维工程师的工作量,也便于产品市场化后的维护,减少了运维成本,提高了产品竞争力。
进一步地,在具体实施时,在本发明实施例提供的上述分布式存储集群中坏盘定位装置中,还可以包括:信息记录模块,用于将检测到的坏盘信息记录到运行所述定时任务的节点中的坏盘日志中。这样通过信息记录模块主动收集坏盘信息保存到坏盘日志中,用户或管理员通过查看坏盘日志就可以获知当前哪些节点上有哪些坏盘,运维工程师只需要关注坏盘日志文件即可。
更进一步地,在具体实施时,在本发明实施例提供的上述分布式存储集群中坏盘定位装置中,还可以包括:节点访问模块,用于当未发现坏盘时,继续访问下一个节点;一直定时轮询。这样通过节点访问模块确保检测出整个分布式存储集群中所有坏盘的位置,检测效率高。
关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
相应的,本发明实施例还公开了一种自动定位分布式存储集群中坏盘的设备,包括处理器和存储器;其中,处理器执行存储器中保存的计算机程序时实现前述实施例公开的分布式存储集群中坏盘定位方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步地,本发明还公开了一种计算机可读存储介质,用于存储计算机程序;计算机程序被处理器执行时实现前述公开的分布式存储集群中坏盘定位方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备、存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本发明实施例提供的一种分布式存储集群中坏盘定位方法、装置、设备及存储介质,该方法包括:通过在分布式存储集群中各个节点之间配置互信、无密码访问;在任何一个节点上运行一个定时任务,定时依次访问所述分布式存储集群中的各个节点并执行检测坏盘的指令;当发现坏盘时立即将坏盘的定位灯点亮。本发明通过自动化检测,及时发现并定位坏盘,自动将该坏盘的定位灯点亮,这样机房运维工程师只需要到机房将定位灯亮灯的磁盘换成新盘即可,可以减少运维工程师定时在分布式存储集群中的大量磁盘中筛选坏盘的工作量,提高存储系统在市场化中的可维护,易维护性,减少运维成本,提高产品竞争力。
最后,还需要说明的是,在本文中,关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的分布式存储集群中坏盘定位方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种分布式存储集群中坏盘定位方法,其特征在于,包括:
通过在分布式存储集群中各个节点之间配置互信、无密码访问;
在任何一个节点上运行一个定时任务,定时依次访问所述分布式存储集群中的各个节点并执行检测坏盘的指令;
当发现坏盘时立即将坏盘的定位灯点亮。
2.根据权利要求1所述的分布式存储集群中坏盘定位方法,其特征在于,在将坏盘的定位灯点亮的同时,还包括:
将检测到的坏盘信息记录到运行所述定时任务的节点中的坏盘日志中。
3.根据权利要求2所述的分布式存储集群中坏盘定位方法,其特征在于,还包括:
当未发现坏盘时,继续访问下一个节点;
一直定时轮询。
4.一种分布式存储集群中坏盘定位装置,其特征在于,包括:
节点间配置模块,用于通过在分布式存储集群中各个节点之间配置互信、无密码访问;
坏盘检测模块,用于在任何一个节点上运行一个定时任务,定时依次访问所述分布式存储集群中的各个节点并执行检测坏盘的指令;
定位灯点亮模块,用于当发现坏盘时立即将坏盘的定位灯点亮。
5.根据权利要求4所述的分布式存储集群中坏盘定位装置,其特征在于,还包括:
信息记录模块,用于将检测到的坏盘信息记录到运行所述定时任务的节点中的坏盘日志中。
6.根据权利要求5所述的分布式存储集群中坏盘定位装置,其特征在于,还包括:
节点访问模块,用于当未发现坏盘时,继续访问下一个节点;一直定时轮询。
7.一种自动定位分布式存储集群中坏盘的设备,其特征在于,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至3任一项所述的分布式存储集群中坏盘定位方法。
8.一种计算机可读存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的分布式存储集群中坏盘定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810834185.4A CN108958960A (zh) | 2018-07-26 | 2018-07-26 | 分布式存储集群中坏盘定位方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810834185.4A CN108958960A (zh) | 2018-07-26 | 2018-07-26 | 分布式存储集群中坏盘定位方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108958960A true CN108958960A (zh) | 2018-12-07 |
Family
ID=64464033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810834185.4A Pending CN108958960A (zh) | 2018-07-26 | 2018-07-26 | 分布式存储集群中坏盘定位方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108958960A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732494A (zh) * | 2020-12-29 | 2021-04-30 | 北京浪潮数据技术有限公司 | 一种存储系统的坏盘更换方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1896963A (zh) * | 2005-07-11 | 2007-01-17 | 英业达股份有限公司 | 硬盘装置损坏监测方法及系统 |
CN103136074A (zh) * | 2011-12-01 | 2013-06-05 | 纬创资通股份有限公司 | 多个磁盘阵列系统的数据储存方法及数据储存系统 |
CN105512003A (zh) * | 2015-11-30 | 2016-04-20 | 曙光信息产业股份有限公司 | 一种磁盘定位方法及装置 |
CN106021065A (zh) * | 2016-05-19 | 2016-10-12 | 浪潮电子信息产业股份有限公司 | 一种在linux下自动检测raid下磁盘坏道信息的方法 |
CN106100938A (zh) * | 2016-08-19 | 2016-11-09 | 浪潮(北京)电子信息产业有限公司 | 一种分布式集群系统的监控和告警方法及系统 |
CN106484591A (zh) * | 2016-09-23 | 2017-03-08 | 上海爱数信息技术股份有限公司 | 一种基于分布式系统的数据采集方法及采集系统 |
-
2018
- 2018-07-26 CN CN201810834185.4A patent/CN108958960A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1896963A (zh) * | 2005-07-11 | 2007-01-17 | 英业达股份有限公司 | 硬盘装置损坏监测方法及系统 |
CN103136074A (zh) * | 2011-12-01 | 2013-06-05 | 纬创资通股份有限公司 | 多个磁盘阵列系统的数据储存方法及数据储存系统 |
CN105512003A (zh) * | 2015-11-30 | 2016-04-20 | 曙光信息产业股份有限公司 | 一种磁盘定位方法及装置 |
CN106021065A (zh) * | 2016-05-19 | 2016-10-12 | 浪潮电子信息产业股份有限公司 | 一种在linux下自动检测raid下磁盘坏道信息的方法 |
CN106100938A (zh) * | 2016-08-19 | 2016-11-09 | 浪潮(北京)电子信息产业有限公司 | 一种分布式集群系统的监控和告警方法及系统 |
CN106484591A (zh) * | 2016-09-23 | 2017-03-08 | 上海爱数信息技术股份有限公司 | 一种基于分布式系统的数据采集方法及采集系统 |
Non-Patent Citations (1)
Title |
---|
网友: "基于ssh的多节点之间互信通信的实现", 《HTTPS://WWW.CNBLOGS.COM/THE-STUDY-OF-LINUX/P/5428538.HTML》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732494A (zh) * | 2020-12-29 | 2021-04-30 | 北京浪潮数据技术有限公司 | 一种存储系统的坏盘更换方法、装置、设备及介质 |
CN112732494B (zh) * | 2020-12-29 | 2024-02-13 | 北京浪潮数据技术有限公司 | 一种存储系统的坏盘更换方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11652884B2 (en) | Customized hash algorithms | |
US10884636B1 (en) | Presenting workload performance in a storage system | |
CN109542342B (zh) | 元数据管理与数据重构方法、设备及存储介质 | |
US10496627B2 (en) | Consistent ring namespaces facilitating data storage and organization in network infrastructures | |
CN106325760B (zh) | 管理存储阵列配置的方法和设备 | |
US9569457B2 (en) | Data processing method and apparatus for distributed systems | |
US11995336B2 (en) | Bucket views | |
CN112470142A (zh) | 在存储系统的中介器服务之间进行切换 | |
US10175973B2 (en) | Microcode upgrade in a storage system | |
WO2019226609A1 (en) | Integrated storage management between storage systems and container orchestrators | |
WO2019178470A1 (en) | Servicing i/o operations in a cloud-based storage system | |
CN112115116B (zh) | 一种基于区块链的高性能防篡改数据库的构建方法 | |
US11194473B1 (en) | Programming frequently read data to low latency portions of a solid-state storage array | |
US11886308B2 (en) | Dual class of service for unified file and object messaging | |
US11169727B1 (en) | Synchronous replication between storage systems with virtualized storage | |
CN106469103B (zh) | 硬盘的维护方法和装置 | |
US11360844B1 (en) | Recovery of a container storage provider | |
WO2019226652A1 (en) | Auto-scaling a software application | |
CN106372160A (zh) | 一种分布式数据库及管理方法 | |
CN102999571A (zh) | 一种集群中单机多节点的实现方法 | |
CN105095103A (zh) | 用于云环境下的存储设备管理方法和装置 | |
EP4091042A1 (en) | Ensuring compliance with geography-based data movement restrictions | |
CN108958960A (zh) | 分布式存储集群中坏盘定位方法、装置、设备及存储介质 | |
CN109032525A (zh) | 一种自动定位坏盘的方法、装置、设备及存储介质 | |
CN109062515A (zh) | 一种磁盘管理方法、系统及相关组件 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181207 |