CN106980567A - 一种查询ceph集群硬件状态的方法及装置 - Google Patents

一种查询ceph集群硬件状态的方法及装置 Download PDF

Info

Publication number
CN106980567A
CN106980567A CN201710213711.0A CN201710213711A CN106980567A CN 106980567 A CN106980567 A CN 106980567A CN 201710213711 A CN201710213711 A CN 201710213711A CN 106980567 A CN106980567 A CN 106980567A
Authority
CN
China
Prior art keywords
hardware
node
detection
inquiry
ceph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710213711.0A
Other languages
English (en)
Inventor
海鑫
白学余
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Inspur Smart Computing Technology Co Ltd
Original Assignee
Guangdong Inspur Big Data Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Inspur Big Data Research Co Ltd filed Critical Guangdong Inspur Big Data Research Co Ltd
Priority to CN201710213711.0A priority Critical patent/CN106980567A/zh
Publication of CN106980567A publication Critical patent/CN106980567A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种查询ceph集群硬件状态的方法及装置,其中该方法包括:接收查询指令;在所述查询指令的触发下指示ceph集群中的各个节点并行化检测自身的硬件状态;将各个节点进行自身的硬件状态检测所得结果进行汇总,并将汇总得到的查询结果存储至指定位置处,以供获取。本申请公开的技术方案中,在接收到查询命令后在查询命令的触发下指示ceph集群中的每个节点并行化检测自身硬件状态,从而并行使用各个节点的计算资源,不仅能够均衡负载,更能够加快查询速度,从而达到实时监控的效果。

Description

一种查询ceph集群硬件状态的方法及装置
技术领域
本发明涉及ceph集群运维技术领域,更具体地说,涉及一种查询ceph集群硬件状态的方法及装置。
背景技术
ceph集群是目前应用最广的分布式文件系统,在ceph集群运维过程中,要实时的监测集群中各个节点硬件的硬件状态,包括硬件的健康状态或者使用情况,例如磁盘、网卡等的健康状态,存储容量占用、cpu使用率等一系列信息。通常一个节点(服务器)具有多块磁盘,多个cpu,多个槽位装有内存,而一个ceph集群又由多个节点构成;规模较小的ceph集群,由于硬件数量不大,采用传统的逐一遍历查询方法勉强可行,查询结果返回速度可以接受,但是在规模较大的ceph集群中,要对这样的集群硬件状态进行实时监控,传统逐一遍历查询方法则力不从心,根本无法达到实时监控的效果。针对此问题,迫切的需要一种查询优化方案来提高查询速度。
综上所述,如何提供一种对ceph集群中硬件状态的查询速度较快,能够达到实时监控效果的技术方案,是目前本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种查询ceph集群硬件状态的方法及装置,以提高对ceph集群中硬件状态的查询速度,进而达到实时监控的效果。
为了实现上述目的,本发明提供如下技术方案:
一种查询ceph集群硬件状态的方法,包括:
接收查询指令;
在所述查询指令的触发下指示ceph集群中的各个节点并行化检测自身的硬件状态;
将各个节点进行自身的硬件状态检测所得结果进行汇总,并将汇总得到的查询结果存储至指定位置处,以供获取。
优选的,还包括:
预先为各个节点设置进程池,所述进程池中包括对应节点用于进行自身硬件状态检测的预设数量个进程。
优选的,指示任一节点检测自身的硬件状态,包括:
指示任一节点利用该节点进程池内的预设数量个进程同时对对应数量个硬件进行检测,在完成对任一硬件的检测后,将该硬件对应进程由进程池中移出,并向进程池中加入新的进程以利用该新的进程为未被检测过的硬件进行检测,直至完成对该节点包含全部硬件的检测为止。
优选的,汇总得到查询结果之后,还包括:
将所述查询结果进行显示。
一种查询ceph集群硬件状态的装置,包括:
接收模块,用于:接收查询指令;
指示模块,用于:在所述查询指令的触发下指示ceph集群中的各个节点并行化检测自身的硬件状态;
汇总模块,用于:将各个节点进行自身的硬件状态检测所得结果进行汇总,并将汇总得到的查询结果存储至指定位置处,以供获取。
优选的,还包括:
设置模块,用于:预先为各个节点设置进程池,所述进程池中包括对应节点用于进行自身硬件状态检测的预设数量个进程。
优选的,所述指示模块包括:
指示单元,用于:指示任一节点利用该节点进程池内的预设数量个进程同时对对应数量个硬件进行检测,在完成对任一硬件的检测后,将该硬件对应进程由进程池中移出,并向进程池中加入新的进程以利用该新的进程为未被检测过的硬件进行检测,直至完成对该节点包含全部硬件的检测为止。
优选的,还包括:
显示模块,用于:汇总得到查询结果之后,将所述查询结果进行显示。
本发明提供了一种查询ceph集群硬件状态的方法及装置,其中该方法包括:接收查询指令;在所述查询指令的触发下指示ceph集群中的各个节点并行化检测自身的硬件状态;将各个节点进行自身的硬件状态检测所得结果进行汇总,并将汇总得到的查询结果存储至指定位置处,以供获取。本申请公开的技术方案中,在接收到查询命令后在查询命令的触发下指示ceph集群中的每个节点并行化检测自身硬件状态,从而并行使用各个节点的计算资源,不仅能够均衡负载,更能够加快查询速度,从而达到实时监控的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种查询ceph集群硬件状态的方法的流程图;
图2为本发明实施例提供的中控机串行查询各节点硬件状态示意图;
图3为本发明实施例提供的一种查询ceph集群硬件状态的方法中多节点并行查询硬件状态示意图;
图4为本发明实施例提供的一种查询ceph集群硬件状态的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种查询ceph集群硬件状态的方法的流程图,可以包括以下步骤:
S11:接收查询指令。
接收到查询命令,查询命令即为指示对硬件状态进行检测查询的命令,查询命令的发出端可以是与管理人员对应的指定终端等,具体可以根据实际需要进行设定。
S12:在查询指令的触发下指示ceph集群中的各个节点并行化检测自身的硬件状态。
接收到查询命令后可以将查询命令同时发送至集群中的每个节点,包括集群中的中控机及普通节点,从而能够使得每个节点接收到该查询命令后启动后台查询服务以进行自身硬件状态的查询,由于各个节点接收到查询命令后是同时进行自身硬件的查询的,也即利用多线程实现各个节点的并行化检测,从而能够大大缩短检测时间,加快检测速度。
S13:将各个节点进行自身的硬件状态检测所得结果进行汇总,并将汇总得到的查询结果存储至指定位置处,以供获取。
汇总可以是将各个节点进行自身的硬件状态检测所得的结果以图表的形式进行记录,当然也可以根据实际需要设定其他方式,均在本发明的保护范围内。将查询结果存储至指定位置可以是将查询结果放置到ceph集群的中控机内存中,以供前端界面的随时读取,实现查询结果的秒级返回。且本发明实施例提供的上述技术方案的实现主体均可以为中控机,从而由主控机实现查询指令的接收、下发及结果的获取、汇总等,当然中控机接收到查询指令后也需与其他节点一样对自身硬件状态进行检测,从而实现各节点的并行化检测。本申请公开的技术方案中,在接收到查询命令后在查询命令的触发下指示ceph集群中的每个节点并行化检测自身硬件状态,从而并行使用各个节点的计算资源,不仅能够均衡负载,更能够加快查询速度,从而达到实时监控的效果。
另外可以指示各个节点循环检测自身的硬件状态,也即指示各个节点每经过预先设定的一定时间则执行一次检测自身硬件状态的操作,从而保证了检测的实时性,同时改善了用户体验。
本发明实施例提供的一种查询ceph集群硬件状态的方法,还可以包括:
预先为各个节点设置进程池,进程池中包括对应节点用于进行自身硬件状态检测的预设数量个进程。
为各个节点设置进程池,从而在各个节点需要进行硬件状态的检测时直接由进程池中获取对应进程并实现检测即可,进一步加快了硬件状态的检测速率。另外预设数量可以为预先设定的与进程池大小对应的数量,如可以为进程池最大可以允许存在的进程数量等。
本发明实施例提供的一种查询ceph集群硬件状态的方法,指示任一节点检测自身的硬件状态,可以包括:
指示任一节点利用该节点进程池内的预设数量个进程同时对对应数量个硬件进行检测,在完成对任一硬件的检测后,将该硬件对应进程由进程池中移出,并向进程池中加入新的进程以利用该新的进程为未被检测过的硬件进行检测,直至完成对该节点包含全部硬件的检测为止。
需要说明的是,利用多个进程对对应数量个硬件进行并行检测时,进程与硬件之间是一一对应的关系。如果节点包含硬件数量不大于进程池中可以包含的进程个数,则可以用进程池中的进程同时对各个硬件实现硬件状态的检测,如果节点包含的硬件数量大于进程池中可以包含的进程个数,则可以用进程池中包含的进程同时对对应数量个硬件实现检测,进而在任一硬件完成检测后移出其进程,添加新的进程为其他此次未开始被监测的硬件进行检测,可见,在各个节点内部也是使用并行检测的方法实现对多个硬件的检测,进一步保证了查询的速度较快,实时性较高。另外,通过进程池中进程个数的限制,能够在实现硬件检测的同时保证各个节点能够正常实现其他业务。
本发明实施例提供的一种查询ceph集群硬件状态的方法,汇总得到查询结果之后,还可以包括:
将查询结果进行显示。
此处的显示可以是显示在于管理人员对应的指定终端上,从而能够使得管理人员能够及时获知查询结果,以实现对应的操作。
另外请参阅图2和图3,其中图2为中控机串行查询各节点硬件状态示意图,图3为本发明实施例提供的技术方案中多节点并行查询硬件状态示意图。由图2可以看出,所有查询命令均由中控机发出,之后逐一查询其他各节点硬件状态,且查询命令均在中控机上执行,这样不仅中控机计算压力大,而且单次遍历查询一遍耗时较长,不能满足实时要求。而由图3可以看出各个硬件状态的检测均并行计算,极大的提高了状态检测的效率,同时充分利用了各个节点的计算能力,实现了实时检测大规模ceph集群硬件状态的目的。
本发明实施例还提供了一种查询ceph集群硬件状态的装置,如图4所示,可以包括:
接收模块11,用于:接收查询指令;
指示模块12,用于:在查询指令的触发下指示ceph集群中的各个节点并行化检测自身的硬件状态;
汇总模块13,用于:将各个节点进行自身的硬件状态检测所得结果进行汇总,并将汇总得到的查询结果存储至指定位置处,以供获取。
本发明实施例提供的一种查询ceph集群硬件状态的装置可以集成在集群的中控机,由此中控机通过该装置实现上述操作,当然也可以进行其他设置,均在本发明保护范围之内。
本发明实施例提供的一种查询ceph集群硬件状态的装置,还可以包括:
设置模块,用于:预先为各个节点设置进程池,进程池中包括对应节点用于进行自身硬件状态检测的预设数量个进程。
本发明实施例提供的一种查询ceph集群硬件状态的装置,指示模块可以包括:
指示单元,用于:指示任一节点利用该节点进程池内的预设数量个进程同时对对应数量个硬件进行检测,在完成对任一硬件的检测后,将该硬件对应进程由进程池中移出,并向进程池中加入新的进程以利用该新的进程为未被检测过的硬件进行检测,直至完成对该节点包含全部硬件的检测为止。
本发明实施例提供的一种查询ceph集群硬件状态的装置,还可以包括:
显示模块,用于:汇总得到查询结果之后,将查询结果进行显示。
本发明实施例提供的一种查询ceph集群硬件状态的装置中相关部分的说明请参见本发明实施例提供的一种查询ceph集群硬件状态的方法中对应部分的详细说明,在此不再赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种查询ceph集群硬件状态的方法,其特征在于,包括:
接收查询指令;
在所述查询指令的触发下指示ceph集群中的各个节点并行化检测自身的硬件状态;
将各个节点进行自身的硬件状态检测所得结果进行汇总,并将汇总得到的查询结果存储至指定位置处,以供获取。
2.根据权利要求1所述的方法,其特征在于,还包括:
预先为各个节点设置进程池,所述进程池中包括对应节点用于进行自身硬件状态检测的预设数量个进程。
3.根据权利要求2所述的方法,其特征在于,指示任一节点检测自身的硬件状态,包括:
指示任一节点利用该节点进程池内的预设数量个进程同时对对应数量个硬件进行检测,在完成对任一硬件的检测后,将该硬件对应进程由进程池中移出,并向进程池中加入新的进程以利用该新的进程为未被检测过的硬件进行检测,直至完成对该节点包含全部硬件的检测为止。
4.根据权利要求1所述的方法,其特征在于,汇总得到查询结果之后,还包括:
将所述查询结果进行显示。
5.一种查询ceph集群硬件状态的装置,其特征在于,包括:
接收模块,用于:接收查询指令;
指示模块,用于:在所述查询指令的触发下指示ceph集群中的各个节点并行化检测自身的硬件状态;
汇总模块,用于:将各个节点进行自身的硬件状态检测所得结果进行汇总,并将汇总得到的查询结果存储至指定位置处,以供获取。
6.根据权利要求5所述的装置,其特征在于,还包括:
设置模块,用于:预先为各个节点设置进程池,所述进程池中包括对应节点用于进行自身硬件状态检测的预设数量个进程。
7.根据权利要求6所述的装置,其特征在于,所述指示模块包括:
指示单元,用于:指示任一节点利用该节点进程池内的预设数量个进程同时对对应数量个硬件进行检测,在完成对任一硬件的检测后,将该硬件对应进程由进程池中移出,并向进程池中加入新的进程以利用该新的进程为未被检测过的硬件进行检测,直至完成对该节点包含全部硬件的检测为止。
8.根据权利要求5所述的装置,其特征在于,还包括:
显示模块,用于:汇总得到查询结果之后,将所述查询结果进行显示。
CN201710213711.0A 2017-04-01 2017-04-01 一种查询ceph集群硬件状态的方法及装置 Pending CN106980567A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710213711.0A CN106980567A (zh) 2017-04-01 2017-04-01 一种查询ceph集群硬件状态的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710213711.0A CN106980567A (zh) 2017-04-01 2017-04-01 一种查询ceph集群硬件状态的方法及装置

Publications (1)

Publication Number Publication Date
CN106980567A true CN106980567A (zh) 2017-07-25

Family

ID=59343800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710213711.0A Pending CN106980567A (zh) 2017-04-01 2017-04-01 一种查询ceph集群硬件状态的方法及装置

Country Status (1)

Country Link
CN (1) CN106980567A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107888696A (zh) * 2017-11-24 2018-04-06 郑州云海信息技术有限公司 一种存储实验室设备信息获取方法、系统及相关装置
CN110209558A (zh) * 2019-04-10 2019-09-06 星辰天合(北京)数据科技有限公司 基于软件定义存储的智能运维方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254016A (zh) * 2011-07-22 2011-11-23 中国人民解放军国防科学技术大学 一种面向云计算环境的容错并行Skyline查询方法
CN103136363A (zh) * 2013-03-14 2013-06-05 曙光信息产业(北京)有限公司 查询处理方法和集群数据库系统
CN104679651A (zh) * 2015-02-09 2015-06-03 百度在线网络技术(北京)有限公司 一种自动化测试方法及执行节点
CN104850480A (zh) * 2015-05-18 2015-08-19 曙光信息产业(北京)有限公司 高密度存储服务器硬盘性能测试的方法及装置
CN105224856A (zh) * 2014-07-02 2016-01-06 腾讯科技(深圳)有限公司 计算机系统检测方法及装置
CN105531680A (zh) * 2013-09-11 2016-04-27 Nec飞鼎克株式会社 远程监视系统、远程监视方法以及程序

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254016A (zh) * 2011-07-22 2011-11-23 中国人民解放军国防科学技术大学 一种面向云计算环境的容错并行Skyline查询方法
CN103136363A (zh) * 2013-03-14 2013-06-05 曙光信息产业(北京)有限公司 查询处理方法和集群数据库系统
CN105531680A (zh) * 2013-09-11 2016-04-27 Nec飞鼎克株式会社 远程监视系统、远程监视方法以及程序
CN105224856A (zh) * 2014-07-02 2016-01-06 腾讯科技(深圳)有限公司 计算机系统检测方法及装置
CN104679651A (zh) * 2015-02-09 2015-06-03 百度在线网络技术(北京)有限公司 一种自动化测试方法及执行节点
CN104850480A (zh) * 2015-05-18 2015-08-19 曙光信息产业(北京)有限公司 高密度存储服务器硬盘性能测试的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107888696A (zh) * 2017-11-24 2018-04-06 郑州云海信息技术有限公司 一种存储实验室设备信息获取方法、系统及相关装置
CN110209558A (zh) * 2019-04-10 2019-09-06 星辰天合(北京)数据科技有限公司 基于软件定义存储的智能运维方法和装置

Similar Documents

Publication Publication Date Title
TWI426393B (zh) 雲端計算資源排程方法與應用之系統
CN107015892A (zh) 一种压力测试方法、装置和系统
CN102123044B (zh) 基于拓扑发现技术的网络拓扑一致性检测设备和检测方法
CN108156225B (zh) 基于容器云平台的微应用监控系统和方法
CN109271290A (zh) 一种监测线程使用率的方法、装置及存储装置
CN104572448A (zh) 一种线程堆栈的使用情况的实现方法和装置
CN110162270A (zh) 基于分布式存储系统的数据存储方法、存储节点及介质
CN104679884B (zh) 数据库的数据分析方法、装置以及系统
CN106325756A (zh) 一种数据存储、数据计算方法和设备
CN106980567A (zh) 一种查询ceph集群硬件状态的方法及装置
CN109587072A (zh) 分布式系统全局限速系统及方法
CN110489317A (zh) 基于工作流的云系统任务运行故障诊断方法与系统
CN110086643A (zh) 一种风险识别方法、终端及存储介质
CN109213658A (zh) 一种巡检方法和装置
WO2022088809A1 (zh) 确定检测服务器的间隔时间的方法、系统、设备及介质
CN207764844U (zh) 一种数据处理系统
CN110377519A (zh) 大数据系统的性能容量测试方法、装置、设备及存储介质
CN106549827A (zh) 网络状态的探测方法及装置
CN106021046A (zh) 一种对比硬盘性能的方法、装置和服务器
CN109670064A (zh) 照片归档方法、装置及电子设备
CN109597680A (zh) 任务排队响应参数估算方法及装置
CN105471607A (zh) 一种大规模集群节点动态信息的树形监视方法
CN110502424A (zh) 一种应用软件的性能数据处理方法、装置、系统及终端
US20150019709A1 (en) Method and apparatus for controlling initiation of multi-service transactions
CN108829735A (zh) 并行执行计划的同步方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170725

RJ01 Rejection of invention patent application after publication