CN109460325A - Ceph集群磁盘故障恢复方法及计算机、恢复系统 - Google Patents

Ceph集群磁盘故障恢复方法及计算机、恢复系统 Download PDF

Info

Publication number
CN109460325A
CN109460325A CN201811219065.XA CN201811219065A CN109460325A CN 109460325 A CN109460325 A CN 109460325A CN 201811219065 A CN201811219065 A CN 201811219065A CN 109460325 A CN109460325 A CN 109460325A
Authority
CN
China
Prior art keywords
disk
fault message
ceph cluster
computer
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811219065.XA
Other languages
English (en)
Inventor
袁进坤
王辂乐
张文剑
杜俊勇
徐亚运
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Smart Software Technology Co Ltd
Original Assignee
Nanjing Smart Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Smart Software Technology Co Ltd filed Critical Nanjing Smart Software Technology Co Ltd
Priority to CN201811219065.XA priority Critical patent/CN109460325A/zh
Publication of CN109460325A publication Critical patent/CN109460325A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2069Management of state, configuration or failover
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种CEPH集群磁盘故障恢复方法及计算机、恢复系统,本CEPH集群磁盘故障恢复方法包括:获取CEPH集群磁盘故障信息;依据所述故障信息对故障磁盘进行修复;以及将所述故障信息上传至服务器以进行告警;实现了自动化CEPH运维,及时找到相应的故障磁盘盘位,将新磁盘替换故障磁盘进行工作,方便了运维管理,并通过将故障信息上传至服务器以提醒使用者故障问题。

Description

CEPH集群磁盘故障恢复方法及计算机、恢复系统
技术领域
本发明涉及一种CEPH集群磁盘故障恢复方法及计算机、恢复系统。
背景技术
Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式的存储系统。具体而言,“统一的”意味着Ceph可以一套存储系统同时提供对象存储、块存储和文件系统存储三种功能,以便在满足不同应用需求的前提下简化部署和运维。而“分布式的”在Ceph系统中则意味着真正的无中心结构和没有理论上限的系统规模可扩展性。
然而,随着Ceph的广泛应用,针对Ceph的运维问题也日益突出,主要表现在Ceph的操作命令较为复杂,特别涉及到磁盘的替换更是需要费大量的人力。
因此,亟需开发一种CEPH集群磁盘故障恢复方法及计算机、恢复系统以解决上述问题。
发明内容
本发明的目的是提供一种CEPH集群磁盘故障恢复方法及计算机、恢复系统。
为了解决上述技术问题,本发明提供了一种CEPH集群磁盘故障恢复方法,其包括:获取CEPH集群磁盘故障信息;依据所述故障信息对故障磁盘进行修复;以及将所述故障信息上传至服务器以进行告警。
进一步,所述获取CEPH集群磁盘故障信息的方法包括:获取CEPH集群磁盘中各磁盘OSD状态;以及依据获取CEPH集群磁盘中各磁盘OSD状态判断磁盘状态。
进一步,依据所述故障信息对故障磁盘进行修复的方法包括:若获取的磁盘状态为故障时,将故障磁盘设置为维护模式;删除故障磁盘原有的OSD号以更换新磁盘后进行格式化;获取新磁盘的OSD号并进行激活;将新磁盘的OSD状态设置为工作模式。
进一步,所述将故障信息上传至服务器以进行告警的方法包括:将故障信息上传至服务器,以提醒用户所述CEPH集群磁盘发生故障和/或故障修复。
另一方面,本发明提供一种CEPH集群磁盘,其包括:获取模块,获取CEPH集群磁盘故障信息;修复模块,依据所述故障信息对故障磁盘进行修复;以及告警模块,将故障信息上传至服务器以进行告警。
第三方面,本发明提供一种计算机,所述计算机适于采用如上述的CEPH集群磁盘。
第四方面,本发明提供一种计算机磁盘恢复系统,其包括:计算机,以及与该计算机相连的服务器,其中所述计算机适于获取CEPH集群磁盘故障信息,依据所述故障信息对故障磁盘进行修复;以及将故障信息上传至服务器以进行告警。
进一步,所述计算机磁盘恢复系统适于采用如上述的计算机。
本发明的有益效果是,本发明实现了自动化CEPH运维,及时找到相应的故障磁盘盘位,将新磁盘替换故障磁盘进行工作,方便了运维管理,并通过将故障信息上传至服务器以提醒使用者故障问题。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明实施例所提供的CEPH集群磁盘故障恢复方法的流程示意图;
图2是图1中S110的子步骤流程图;
图3是图1中S120的子步骤流程图;
图4是本发明实施例所提供的CEPH集群磁盘的原理框图;
图5是本发明实施例所提供的计算机磁盘恢复系统的原理框图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
实施例1
图1是本发明实施例所提供的CEPH集群磁盘故障恢复方法的流程示意图。
在本实施例中,如图1所示,本发明提供了一种CEPH集群磁盘故障恢复方法,其包括:
步骤S110,获取CEPH集群磁盘故障信息;
步骤S120,依据所述故障信息对故障磁盘进行修复;以及
步骤S130,将所述故障信息上传至服务器以进行告警。
在本实施例中,本实施例实现了自动化CEPH运维,及时找到相应的故障磁盘盘位,将新磁盘替换故障磁盘进行工作,方便了运维管理,并通过将故障信息上传至服务器以提醒使用者故障问题。
图2是图1中S110的子步骤流程图。
请参阅图2,所述获取CEPH集群磁盘故障信息的方法包括:
步骤S111,获取CEPH集群磁盘中各磁盘OSD状态;
步骤S112,依据获取CEPH集群磁盘中各磁盘OSD状态判断磁盘状态。
在本实施例中,在CEPH集群磁盘中各磁盘OSD节点均由一定时任务进行监控,间隔时间(OSD由down状态转换为out状态默认时间)由用户设定,一般设置为5分钟,监控磁盘OSD状态可以采用监控该OSD的服务状态方式。
图3是图1中S120的子步骤流程图。
请参阅图3,依据所述故障信息对故障磁盘进行修复的方法包括:
步骤S121,若获取的磁盘状态为故障时,将故障磁盘设置为维护模式;
步骤S122,删除故障磁盘原有的OSD号以更换新磁盘后进行格式化;
步骤S123,获取新磁盘的OSD号并进行激活;
步骤S124,将新磁盘的OSD状态设置为工作模式。
在本实施例中,故障磁盘拔出新磁盘插入时触发步骤S122。
所述将故障信息上传至服务器以进行告警的方法包括:
将故障信息上传至服务器,以提醒用户所述CEPH集群磁盘发生故障和/或故障修复。
实施例2
图4是本发明实施例所提供的CEPH集群磁盘的原理框图。
在实施例1基础上,如图4所示,本实施例提供一种CEPH集群磁盘,其包括:获取模块,获取CEPH集群磁盘故障信息;修复模块,依据所述故障信息对故障磁盘进行修复;以及告警模块,将故障信息上传至服务器以进行告警。
上述获取模块、修复模块和告警模块的具体工作原理及工作过程在实施例1中已经进行详细论述,请参见上述内容。
实施例3
在本实施例中,本实施例提供一种计算机,所述计算机适于采用如实施例2所提供的CEPH集群磁盘。
实施例4
图5是本发明实施例所提供的计算机磁盘恢复系统的原理框图。
在上述实施例的基础上,如图5所示,本实施例提供一种计算机磁盘恢复系统,其包括:计算机,以及与该计算机相连的服务器,其中所述计算机适于获取CEPH集群磁盘故障信息,依据所述故障信息对故障磁盘进行修复;以及将故障信息上传至服务器以进行告警。
进一步,所述计算机磁盘恢复系统适于采用如实施例3所提供的计算机。
综上所述,本发明实现了自动化CEPH运维,及时找到相应的故障磁盘盘位,将新磁盘替换故障磁盘进行工作,方便了运维管理,并通过将故障信息上传至服务器以提醒使用者故障问题。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (8)

1.一种CEPH集群磁盘故障恢复方法,其特征在于,包括:
获取CEPH集群磁盘故障信息;
依据所述故障信息对故障磁盘进行修复;以及
将所述故障信息上传至服务器以进行告警。
2.如权利要求1所述的CEPH集群磁盘故障恢复方法,其特征在于,
所述获取CEPH集群磁盘故障信息的方法包括:
获取CEPH集群磁盘中各磁盘OSD状态;以及
依据获取CEPH集群磁盘中各磁盘OSD状态判断磁盘状态。
3.如权利要求1所述的CEPH集群磁盘故障恢复方法,其特征在于,
依据所述故障信息对故障磁盘进行修复的方法包括:
若获取的磁盘状态为故障时,将故障磁盘设置为维护模式;
删除故障磁盘原有的OSD号以更换新磁盘后进行格式化;
获取新磁盘的OSD号并进行激活;
将新磁盘的OSD状态设置为工作模式。
4.如权利要求1所述的CEPH集群磁盘故障恢复方法,其特征在于,
所述将故障信息上传至服务器以进行告警的方法包括:
将故障信息上传至服务器,以提醒用户所述CEPH集群磁盘发生故障和/或故障修复。
5.一种CEPH集群磁盘,其特征在于,包括:
获取模块,获取CEPH集群磁盘故障信息;
修复模块,依据所述故障信息对故障磁盘进行修复;以及
告警模块,将故障信息上传至服务器以进行告警。
6.一种计算机,其特征在于,所述计算机适于采用如权利要求5所述的CEPH集群磁盘。
7.一种计算机磁盘恢复系统,其特征在于,包括:
计算机,以及与该计算机相连的服务器,其中
所述计算机适于获取CEPH集群磁盘故障信息,依据所述故障信息对故障磁盘进行修复;以及
将故障信息上传至服务器以进行告警。
8.根据权利要求7所述的计算机磁盘恢复系统,其特征在于,
所述计算机磁盘恢复系统适于采用如权利要求6所述的计算机。
CN201811219065.XA 2018-10-19 2018-10-19 Ceph集群磁盘故障恢复方法及计算机、恢复系统 Pending CN109460325A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811219065.XA CN109460325A (zh) 2018-10-19 2018-10-19 Ceph集群磁盘故障恢复方法及计算机、恢复系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811219065.XA CN109460325A (zh) 2018-10-19 2018-10-19 Ceph集群磁盘故障恢复方法及计算机、恢复系统

Publications (1)

Publication Number Publication Date
CN109460325A true CN109460325A (zh) 2019-03-12

Family

ID=65607913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811219065.XA Pending CN109460325A (zh) 2018-10-19 2018-10-19 Ceph集群磁盘故障恢复方法及计算机、恢复系统

Country Status (1)

Country Link
CN (1) CN109460325A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209558A (zh) * 2019-04-10 2019-09-06 星辰天合(北京)数据科技有限公司 基于软件定义存储的智能运维方法和装置
CN111240894A (zh) * 2019-12-31 2020-06-05 中国建设银行股份有限公司 用于对基于Ceph的对象存储系统进行故障分析的系统和介质
CN113297015A (zh) * 2020-04-07 2021-08-24 阿里巴巴集团控股有限公司 磁盘恢复方法以及装置
CN113608915A (zh) * 2021-08-31 2021-11-05 新华三技术有限公司成都分公司 一种磁盘故障检测方法以及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105450734A (zh) * 2015-11-09 2016-03-30 上海爱数信息技术股份有限公司 分布式存储ceph的数据分布优化方法
US20160334998A1 (en) * 2015-05-15 2016-11-17 Cisco Technology, Inc. Tenant-level sharding of disks with tenant-specific storage modules to enable policies per tenant in a distributed storage system
CN107832164A (zh) * 2017-11-20 2018-03-23 郑州云海信息技术有限公司 一种基于Ceph的故障硬盘处理的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160334998A1 (en) * 2015-05-15 2016-11-17 Cisco Technology, Inc. Tenant-level sharding of disks with tenant-specific storage modules to enable policies per tenant in a distributed storage system
CN105450734A (zh) * 2015-11-09 2016-03-30 上海爱数信息技术股份有限公司 分布式存储ceph的数据分布优化方法
CN107832164A (zh) * 2017-11-20 2018-03-23 郑州云海信息技术有限公司 一种基于Ceph的故障硬盘处理的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209558A (zh) * 2019-04-10 2019-09-06 星辰天合(北京)数据科技有限公司 基于软件定义存储的智能运维方法和装置
CN111240894A (zh) * 2019-12-31 2020-06-05 中国建设银行股份有限公司 用于对基于Ceph的对象存储系统进行故障分析的系统和介质
CN111240894B (zh) * 2019-12-31 2023-11-14 中国建设银行股份有限公司 用于对基于Ceph的对象存储系统进行故障分析的系统和介质
CN113297015A (zh) * 2020-04-07 2021-08-24 阿里巴巴集团控股有限公司 磁盘恢复方法以及装置
CN113608915A (zh) * 2021-08-31 2021-11-05 新华三技术有限公司成都分公司 一种磁盘故障检测方法以及装置

Similar Documents

Publication Publication Date Title
CN109460325A (zh) Ceph集群磁盘故障恢复方法及计算机、恢复系统
US10212055B2 (en) System and method for dynamically grouping devices based on present device conditions
CN105610648B (zh) 一种运维监控数据的采集方法及服务器
US10170018B2 (en) Cloud based server to support facility operations management
US20180039897A1 (en) Forcasting interest in an object over a future period of time using a three-stage time-series analysis process
CN103051688B (zh) 基于云服务的led广告屏系统及其智能监控方法
JP5797536B2 (ja) 機器状態表示装置および機器状態表示方法
US10541892B2 (en) System and method for monitoring, sensing and analytics of collaboration devices
CN102662821A (zh) 虚拟机故障的辅助诊断方法、装置和系统
CN106815342A (zh) 一种分布式文件系统用户配额系统及方法
US20110074597A1 (en) Monitoring and control system
CN105302697A (zh) 一种密集数据模型数据库的运行状态监控方法及系统
CN110912755A (zh) 一种云环境下网卡故障监控与自动恢复的系统及方法
CN106911519A (zh) 一种数据采集监控方法及装置
CN112865311A (zh) 一种电力系统消息总线监视方法和装置
CN108304293A (zh) 一种基于大数据技术的软件系统监控方法
CN107239380A (zh) 一种基于zabbix的消息队列监控方法
CN106951445A (zh) 一种分布式文件系统及其存储节点上线方法
CN110297740A (zh) 一种可视化内容管理方法及系统
WO2012051852A1 (zh) 一种基于分组指标体系的服务质量监控方法和系统
CA2682951C (en) Message mechanism for workflow interfacing
CN103577613A (zh) 服务交互关系数据的展示方法及其展示装置
CN108288876A (zh) 基于大数据的智能电网采集系统
JP2008134690A (ja) テレメータ装置
CN112817998A (zh) 水电站数据自动比对及同步的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190312

RJ01 Rejection of invention patent application after publication