CN105045534A - 一种监控Lustre文件系统的装置、方法及系统 - Google Patents

一种监控Lustre文件系统的装置、方法及系统 Download PDF

Info

Publication number
CN105045534A
CN105045534A CN201510404945.4A CN201510404945A CN105045534A CN 105045534 A CN105045534 A CN 105045534A CN 201510404945 A CN201510404945 A CN 201510404945A CN 105045534 A CN105045534 A CN 105045534A
Authority
CN
China
Prior art keywords
rpm
lmt
file system
handling capacity
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510404945.4A
Other languages
English (en)
Inventor
王冬冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201510404945.4A priority Critical patent/CN105045534A/zh
Publication of CN105045534A publication Critical patent/CN105045534A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提供一种监控Lustre文件系统的装置、方法及系统,该装置包括:Lustre监控工具LMT、报警模块及至少两个RPM监控包,第一RPM监控包,与所述文件系统中的元数据服务器MDS相连,用于采集MDS对应的元数据存储节点MDT的IO吞吐量,第二RPM监控包,与所述文件系统中的存储数据服务器OSS相连,用于采集OSS对应的存储数据存储节点OST的IO吞吐量,所述LMT与所述各个RPM监控包相连接,用于判断MDT及OST的IO吞吐量是否在安全水平,如果超出安全水平,向报警模块发送报警命令,所述报警模块,用于接收到所述LMT的报警命令后,进行报警。本方案能够提高Lustre文件系统的稳定性。

Description

一种监控Lustre文件系统的装置、方法及系统
技术领域
本发明涉及计算机技术领域,特别涉及一种监控Lustre文件系统的装置、方法及系统。
背景技术
Lustre文件系统是应用于大型服务器集群的分布式文件系统,通常由多台服务器构成,用户通过Lustre文件系统获得快速、稳定的计算服务,但是由于使用Lustre文件系统的用户很多,很可能出现同时有多个用户对同一存储节点进行数据读取或写入的情况,在这种高并发量的数据读取或存储进行的时候,由于IO阻塞,很可能导致服务器宕机或死机,服务器一旦发生宕机或死机,将导致用户不用访问、计算中断或数据丢失等情况,带来严重的影响,因此,需要对Lustre文件系统中的各个服务器进行监控,采取相应的措施,从而避免IO阻塞情况的发生。
目前,针对Lustre文件系统的监控方法,主要是由系统管理员通过Ping命令和Free命令,检查Lustre文件系统中各个服务器的运行及存储情况。
由此可见,现有技术由系统管理员通过相应的命令,检查Lustre文件系统中各个服务器的运行及存储情况,由于人工检查不可能实现实时检查,服务器很可能由于IO阻塞而发生宕机或死机,因此Lustre文件系统的稳定性较差。
发明内容
本发明提供一种监控Lustre文件系统的装置、方法及系统,能够提高Lustre文件系统的稳定性。
本发明实施例提供了一种监控Lustre文件系统的装置,包括:Lustre监控工具LMT、报警模块及至少两个RPM监控包;
所述至少两个RPM监控包中的第一RPM监控包,与所述Lustre文件系统中的元数据服务器MDS相连,用于采集所述MDS对应的元数据存储节点MDT的IO吞吐量;
所述至少两个RPM监控包中的第二RPM监控包,与所述Lustre文件系统中的存储数据服务器OSS相连,用于采集所述OSS对应的存储数据存储节点OST的IO吞吐量;
所述LMT布置于监控服务器中,与所述各个RPM监控包相连接,用于根据所述RPM监控包采集到的IO吞吐量,判断MDT及OST的IO吞吐量是否在安全水平,如果超出安全水平,向报警模块发送报警命令;
所述报警模块,与所述LMT相连,用于接收到所述LMT的报警命令后,进行报警。
优选地,该装置进一步包括:配置窗口模块;
所述配置窗口模块,与所述LMT相连,用于以窗口的形式向用户展示可供选择的监控对象MDT和OST,接收到用户选择的监控对象标识及各个监控对象对应的安全阈值信息后,将所述被选择的监控对象的标识及各自对应的安全阈值信息发送给所述LMT。
优选地,所述LMT,用于接收到所述配置窗口模块发送来的被选择的监控对象的标识及各自对应的安全阈值信息后,将被选择的监控对象标识发送给所述RPM监控包。
优选地,所述RPM监控包,用于根据所述被选择的监控对象的标识,对各个被选择的监控对象的IO吞吐量进行采集,并将所述IO吞吐量数据发送给所述LMT。
优选地,所述LMT,进一步用于比较所述RPM发送来的IO吞吐量数据与所述配置窗口模块发送来的安全阈值信息,判断所述IO吞吐量是否超过对应的安全阈值,如果超过则向所述报警模块发送报警命令。
优选地,所述第一RPM监控包,用于采集所述MDS的数据传递和文件系统的命令接收情况的运行信息;
所述第二RPM监控包,用于采集所述OSS的文件I/O操作及文件系统数据维护情况的运行信息;
所述LMT,用于根据所述第一RPM监控包和第二RPM监控包采集到的MDS及OSS的运行信息,判断所述MDS及OSS的运行是否正常,如果不正常,向所述报警模块发送报警命令。
优选地,该装置进一步包括:记录模块;
所述记录模块,与所述LMT相连,用于记录MDS和OSS的异常运行信息及各个OST及MDT的IO吞吐量信息,并形成记录文件。
优选地,所述LMT,对所述文件系统的监控处于资源级别。
本发明实施例还提供了一种监控Lustre文件系统的方法,包括:
第一RPM监控包采集Lustre文件系统中MDS对应的MDT的IO吞吐量;
第二RPM监控包采集所述Lustre文件系统中OSS对应的OST的IO吞吐量;
LMT根据所述第一RPM监控包和第二RPM监控包各自采集到的IO吞吐量,判断MDT及OST的IO吞吐量是否在安全水平;
根据所述LMT的判断结果,如果超出安全水平,向报警模块发送报警命令;
报警模块接收到所述LMT发送的报警命令后,进行报警。
优选地,在所述第一RPM监控包采集Lustre文件系统中MDS对应的MDT的IO吞吐量之前进一步包括:
以窗口的形式向用户展示可供选择的监控对象MDT和OST,接收到用户选择的监控对象标识及各个监控对象对应的安全阈值信息后,将所述被选择的监控对象的标识及各自对应的安全阈值信息发送给所述LMT。
优选地,所述第一RPM监控包采集Lustre文件系统中MDS对应的MDT的IO吞吐量包括:所述第一RPM监控包根据所述监控对象的标识,对用户选择的MDT的IO吞吐量进行采集。
优选地,所述第二RPM监控包采集所述Lustre文件系统中OSS对应的OST的IO吞吐量包括:所述第二RPM监控包根据所述监控对象的标识,对用户选择的OST的IO吞吐量进行采集。
优选地,所述根据所述LMT的判断结果,如果超出安全水平,向报警模块发送报警命令包括:所述LMT根据各个监控对象的IO吞吐量的安全阈值,判断各个MDT及OST的IO吞吐量是否超过对应的安全阈值,如果超过,则向所述报警模块发送报警命令。
本发明实施例还提供了一种监控Lustre文件系统的系统,包括:MDS及对应的MDT,OSS及对应OST,以及上述实施例所提供的任意一个监控Lustre文件系统的装置;
所述MDS,与其对应的MDT相连,用于读取所述MDT中的数据或向所述MDT中存储数据;
所述MDT,用于存储元数据信息,所述元数据信息包括所述OST中所存储文件的路径和/或访问权限;
所述OSS,与其对应的OST相连,用于根据所述MDS发来的路径将对应的文件存储到所述OST中或根据所述MDS发来的路径读取OST中存储的对应文件;
所述OST,用于存储文件。
本发明实施例提供了一种监控Lustre文件系统的装置、方法及系统,由RPM监控包采集Lustre文件系统中元数据存储节点MDT和存储数据存储节点OST的IO吞吐量数据,LMT根据RPM监控包采集到的IO吞吐量,判断对应的存储节点的IO吞吐量是否超出安全水平,如果超出,则向报警模块发送报警命令,报警模块进行报警,通过这种装置,当Lustre文件系统中存储节点的IO吞吐量超过安全水平后,自动报警,系统管理员可以及时发现存储节点IO吞吐量超限,从而及时采取相应的处理措施,控制IO吞吐量,避免发生IO堵塞而造成服务器宕机或死机,从而提高了Lustre文件系统稳定性。
附图说明
图1是本发明一个实施例提供的一种监控Lustre文件系统的装置示意图;
图2是本发明一个实施例提供的一种监控Lustre文件系统的方法流程图;
图3是本发明另一个实施例提供的一种监控Lustre文件系统的系统示意图;
图4是本发明另一个实施例提供的一种监控Lustre文件系统的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一个实施例提供了一种监控Lustre文件系统的装置,包括:Lustre监控工具LMT101、报警模块102及至少两个RPM监控包103,其中,LMT101为Lustre文件系统的监控工具(LustreMonitorTool),RPM监控包103是Linux系统上一种RPM格式的监控应用;
所述至少两个RPM监控包中的第一RPM监控包103,与所述Lustre文件系统中的元数据服务器MDS相连,用于采集所述MDS对应的元数据存储节点MDT的IO吞吐量;
所述至少两个RPM监控包中的第二RPM监控包103,与所述Lustre文件系统中的存储数据服务器OSS相连,用于采集所述OSS对应的存储数据存储节点OST的IO吞吐量;
所述LMT101布置于监控服务器中,与所述各个RPM监控包103相连接,用于根据所述RPM监控包103采集到的IO吞吐量,判断MDT及OST的IO吞吐量是否在安全水平,如果超出安全水平,向报警模块102发送报警命令;
所述报警模块102,与所述LMT101相连,用于接收到所述LMT101的报警命令后,进行报警。
通过本发明实施例提供了一种监控Lustre文件系统的装置,由RPM监控包采集Lustre文件系统中元数据存储节点MDT和存储数据存储节点OST的IO吞吐量数据,LMT根据RPM监控包采集到的IO吞吐量,判断对应的存储节点的IO吞吐量是否超出安全水平,如果超出,则向报警模块发送报警命令,报警模块进行报警,通过这种装置,当Lustre文件系统中存储节点的IO吞吐量超过安全水平后,自动报警,系统管理员可以及时发现存储节点IO吞吐量超限,从而及时采取相应的处理措施,控制IO吞吐量,避免发生IO堵塞而造成服务器宕机或死机,从而提高了Lustre文件系统稳定性。
在本发明一个实施例中,该装置进一步包括配置窗口模块,配置窗口模块以窗口的形式向用于展示可供选择的监控对象,由用户根据实际情况选择需要进行监控的存储节点,并配置各个监控对象针对IO吞吐量的安全阈值,这样,用户可以根据Lustre文件系统的实际使用情况,通过窗口的形式,方便、合理选择需要进行监控的存储节点,并制定针对各个存储节点的IO吞吐量的安全阈值,以可视化的界面形式,方便用户的操作。
在本发明一个实施例中,RPM监控包根据用户的选择,对需要进行监控的存储节点进行监控,将采集到的IO吞吐量数据发送给LMT,LMT判断各个存储节点的IO吞吐量是否超过对应的安全阈值,如果超过则向报警模块发送报警命令,报警模块进行报警,这样,可以根据各个存储节点的实际情况选择不同安全阈值,如果超过该安全阈值则进行报警,提醒系统管理员进行相应的操作,避免发生服务器宕机或死机,提高监控的灵活性和有效性。
在本发明一个实施例中,RPM监控包可以进一步监控元数据服务器MDS的数据传递和文件系统的命令接收情况,以及存储数据服务器OSS的文件I/O操作及文件系统数据维护情况,如果MDS或OSS运行不正常,同样进行报警,这样除了监控存储节点的IO吞吐量以外,还对MDS和OSS的运行状况进行监控,当MSD或OSS运行异常时及时发现而进行解决,进一步提高Lustre文件系统的稳定性。
在本发明一个实施例中,该装置进一步包括记录模块,用于记录各个被监控存储节点的IO吞吐量信息及MDS和OSS的异常运行信息,并形成记录文件,用户通过分析记录文件,可以获得各个存储节点IO的规律及易发生异常的存储节点,进而为后期Lustre文件系统的升级及改造提供依据。
在本发明一个实施例中,LMT使用资源级别的监测来对Lustre文件系统进行监控,将元数据与存储数据分开进行监控,使得监控更加直观,并且将元数据与存储数据分开,使得并行存储的速度更快。
如图2所示,本发明一个实施例提供了一种监控Lustre文件系统的方法,包括:
步骤201:第一RPM监控包采集Lustre文件系统中MDS对应的MDT的IO吞吐量;
步骤202:第二RPM监控包采集所述Lustre文件系统中OSS对应的OST的IO吞吐量;
步骤203:LMT根据所述第一RPM监控包和第二RPM监控包各自采集到的IO吞吐量,判断MDT及OST的IO吞吐量是否在安全水平,如果是执行步骤204,否则跳出当前流程;
步骤204:根据所述LMT的判断结果,如果超出安全水平,向报警模块发送报警命令;
步骤205:报警模块接收到所述LMT发送的报警命令后,进行报警。
在本发明一个实施例中,在步骤201之前进一步包括:以窗口的形式向用户展示可供选择的监控对象,其中可供选择的监控对象包括Lustre文件系统中的各个MDT和OST,用户根据实际情况选择需要的监控对象,并为选择的监控对象设置针对IO吞吐量的安全阈值,然后将用户选择的监控对象标识及各个监控对象对应的安全阈值信息发送给所述LMT。
在本发明一个实施例中,LMT接收到用户选择的监控对象标识及各个监控对象对应的安全阈值信息后,向各个RPM监控包发送用户选择的监控对象的信息,RPM监控包采集各个被用户选择的监控对象的IO吞吐量,并将该信息发送给LMT,LMT判断各个被用户选择的监控对象的IO吞吐量是否超过对应的安全阈值,如果超过则向报警模块发送报警命令,由报警模块进行报警。
如图3所示,本发明一个实施例提供给了一种监控Lustre文件系统的系统,包括:元数据服务器MDS301及其对应的元数据存储节点MDT302,存储数据服务器OSS303及其对应的存储数据存储节点OST304,以及上述实施例所提供的任意一种监控Lustre文件系统的装置;
所述MDS301,与其对应的MDT302相连,用于读取所述MDT302中的数据或向所述MDT302中存储数据;
所述MDT302,用于存储元数据信息,所述元数据信息包括所述OST304中所存储文件的路径和/或访问权限;
所述OSS303,与其对应的OST304相连,用于根据所述MDS301发来的路径将对应的文件存储到OST304中或根据所述MDS301发来的路径读取OST304中存储的对应文件;
所述OST304,用于存储文件。
为使本发明的目的、技术方案和优点更加清楚,下面结合附图及具体实施例对本发明作进一步地详细描述。
如图4所示,本发明一个实施例提供了一种监控Lustre文件系统的方法,包括:
步骤401:用户根据实际情况,通过配置窗口模块选择需要进行监控的存储节点。
在本发明实施例中,配置窗口模块以窗口的形式向用户展示可供选择的监控对象,其中监控对象是Lustre文件系统中的各个存储节点,包括各个MDT及OST。例如,用户根据实际情况,选择一个MDT1和三个OST作为监控对象,其中三个分别为OST1、OST2及OST3。
步骤402:分别为各个被监控存储节点配置针对于IO吞吐量的安全阈值。
在本发明实施例中,用户选择完需要进行监控的存储节点之后,还需要配置各个被监控存储节点的安全阈值,其中安全阈值是指存储节点在正常运行中最大的IO吞吐量。例如,将选择的四个监控对象中的MDT1的安全阈值设置为X,OST1、OST2及OST3的安全阈值设置为Y。
步骤403:配置窗口模块将被监控存储节点的标识及对应的安全阈值信息发送给LMT。
在本发明实施例中,在用户将被监控的各个存储节点的安全阈值配置完成之后,配置窗口模块将被监控存储节点的标识及对应的安全阈值信息发送给LMT。例如,配置窗口模块将被监控的MDT1、OST1、OST2及OST3的标识及各自对应的安全阈值发送给LMT。
步骤404:LMT将被监控存储节点的标识发送给对应的RPM监控包。
在本发明实施例中,LMT接收到配置窗口模块发送来的被监控存储节点的标识及对应的安全阈值信息后,将被监控存储节点的标识发送给对应的RPM监控包。例如,LMT与两个RPM监控包相连,分别为RPM监控包1及RPM监控包2,RPM监控包1与元数据服务器MDS相连,RPM监控包2与存储数据服务器OSS相连,MDS服务于MDT1,OSS服务于OST1、OST2及OST3,相应的,将MDT1的标识发送给RPM监控包1,将OST1、OST2及OST3的标识发送给RPM监控包2。
步骤405:RPM监控包实时采集各个被监控存储节点的IO吞吐量和各个MDS及OSS的运行状态信息。
在本发明实施例中,各个RPM监控包根据接收到的被监控存储节点的标识,通过与自身相连的服务器,实时采集各个被监控存储节点的IO吞吐量,并采集与自身相连的服务器的运行状态信息,然后将采集到的IO吞吐量及运行状态信息发送给LMT。例如,RPM监控包1通过MDS实时采集MDT1的IO吞吐量,并采集MDS的运行状态信息,RPM监控包2通过OSS实时采集OST1、OST2及OST3的IO吞吐量,并采集OSS的运行状态信息,RPM监控包1和RPM监控包2将各自采集到的IO吞吐量及MDS和OSS的运行状态信息发送给LMT。
步骤406:LMT判断各个被监控存储节点的IO吞吐量是否超过对应的安全阈值,并判断各个MDS及OSS是否运行异常,如果是,执行步骤407,否则继续执行步骤405。
在本发明实施例中,当LMT接收到RPM监控包发送来的被监控存储节点的IO吞吐量后,比较被监控存储节点的IO吞吐量和对应安全阈值的大小,如果被监控存储节点的IO吞吐量大于该存储节点对应的安全阈值,则执行步骤407,另外,如果MDS或OSS的运行出现宕机或死机等异常情况,也执行步骤407,如果各个被监控存储节点的IO吞吐量都小于各自对应的安全阈值,MDS和OSS的运行没有异常,则不采取动作,继续对存储节点及MDS和OSS进行监控。例如,RPM监控包1采集到MDT1的IO吞吐量为X1,MDS的运行没有异常,RPM监控包2采集到OST1的IO吞吐量为Y1,OST2的IO吞吐量为Y2,OST3的IO吞吐量为Y3,且OSS的运行没有异常,其中X1小于X,Y1及Y3均小于Y,但是Y2大于Y,那么执行步骤407。
步骤407:LMT向报警模块发送报警命令。
在本发明实施例中,当LMT判断有被监控存储节点的IO吞吐量大于其对应的安全阈值,或MDS和OSS中有异常运行情况时,LMT向报警模块发送报警命令。例如,当LMT判断OST2的IO吞吐量Y2大于OST2对应的安全阈值Y后,LMT向报警模块发送报警命令。
步骤408:报警模块进行报警。
在本发明实施例中,当报警模块接收到LMT发送的报警命令后,进行报警操作,发出报警音,并在用户操作界面上突出显示IO吞吐量超过对应安全阈值的存储节点的标识或出现异常的服务器。例如,报警模块接收到LMT发送的报警命令后,发出报警音,并在用户操作界面上突出显示OST2的标识。
需要说明的是,在获取LMT接收到RPM监控包发送来的各个被监控存储节点的IO吞吐量及各个MDS及OSS的运行状态信息后,LMT还将这些信息发送给记录模块,记录模块记录各个被监控存储节点的IO吞吐量信息及各个服务器的运行异常信息。
根据上述方案,本发明实施例所提供的一种监控Lustre文件系统的装置、方法及系统,至少具有如下有益效果:
1、本发明实施例中,由RPM监控包采集Lustre文件系统中元数据存储节点MDT和存储数据存储节点OST的IO吞吐量数据,LMT根据RPM监控包采集到的IO吞吐量,判断对应的存储节点的IO吞吐量是否超出安全水平,如果超出,则向报警模块发送报警命令,报警模块进行报警,通过这种装置,当Lustre文件系统中存储节点的IO吞吐量超过安全水平后,自动报警,系统管理员可以及时发现存储节点IO吞吐量超限,从而及时采取相应的处理措施,控制IO吞吐量,避免发生IO堵塞而造成服务器宕机或死机,从而提高了Lustre文件系统稳定性。
2、本发明实施例中,以窗口的形式向用户展示可供选择的监控对象及监控对象安全阈值配置过程,操作简单方便。
3、本发明实施例中,除了监控存储节点的IO吞吐量,还对元数据服务器MDS及存储数据服务器OSS的运行状况进行监控,如果MDS或OSS的运行状态异常,同样会进行报警,在保证不发生IO堵塞的情况下,及时发现各个服务器的异常运行,以便及时解决,进一步提高Lustre文件系统的稳定性。
4、本发明实施例中,用户可以根据实际情况选择需要进行监控的存储节点,并可以配置各个被监控存储节点的安全阈值,从而针对不同的Lustre文件系统,灵活的制定监控策略,一方面可以保证监控设备的性能,另一方面也可以提高监控的有效性,保证Lustre文件系统安全、稳定的运行。
5、本发明实施例中,在采集到各个存储节点的IO吞吐量后,通过记录模块将采集到的各个存储节点的IO吞吐量数据进行记录,形成记录文件,并且将各个服务器出现运行异常的情况也进行记录,用户可以通过分析记录文件,获得各个存储节点的IO情况及易发生故障的服务器,为后期Lustre文件系统的升级及改造提供依据。
6、本发明实施例中,LMT采用资源级别的监控方式对Lustre文件系统进行监控,将元数据与存储数据分开监控,使得监控更加直观,而且能够提高并行存储的速度,进一步提高Lustre文件系统的稳定性。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃〃〃〃〃〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种监控Lustre文件系统的装置,其特征在于,包括:Lustre监控工具LMT、报警模块及至少两个RPM监控包;
所述至少两个RPM监控包中的第一RPM监控包,与所述Lustre文件系统中的元数据服务器MDS相连,用于采集所述MDS对应的元数据存储节点MDT的IO吞吐量;
所述至少两个RPM监控包中的第二RPM监控包,与所述Lustre文件系统中的存储数据服务器OSS相连,用于采集所述OSS对应的存储数据存储节点OST的IO吞吐量;
所述LMT布置于监控服务器中,与所述各个RPM监控包相连接,用于根据所述RPM监控包采集到的IO吞吐量,判断MDT及OST的IO吞吐量是否在安全水平,如果超出安全水平,向报警模块发送报警命令;
所述报警模块,与所述LMT相连,用于接收到所述LMT的报警命令后,进行报警。
2.根据权利要求1所述的装置,其特征在于,进一步包括:配置窗口模块;
所述配置窗口模块,与所述LMT相连,用于以窗口的形式向用户展示可供选择的监控对象MDT和OST,接收到用户选择的监控对象标识及各个监控对象对应的安全阈值信息后,将所述被选择的监控对象的标识及各自对应的安全阈值信息发送给所述LMT。
3.根据权利要求2所述的装置,其特征在于,
所述LMT,用于接收到所述配置窗口模块发送来的被选择的监控对象的标识及各自对应的安全阈值信息后,将被选择的监控对象标识发送给所述RPM监控包;
和/或,
所述RPM监控包,用于根据所述被选择的监控对象的标识,对各个被选择的监控对象的IO吞吐量进行采集,并将所述IO吞吐量数据发送给所述LMT;
和/或,
所述LMT,进一步用于比较所述RPM发送来的IO吞吐量数据与所述配置窗口模块发送来的安全阈值信息,判断所述IO吞吐量是否超过对应的安全阈值,如果超过则向所述报警模块发送报警命令。
4.根据权利要求1所述的装置,其特征在于,进一步包括:
所述第一RPM监控包,用于采集所述MDS的数据传递和文件系统的命令接收情况的运行信息;
所述第二RPM监控包,用于采集所述OSS的文件I/O操作及文件系统数据维护情况的运行信息;
所述LMT,用于根据所述第一RPM监控包和第二RPM监控包采集到的MDS及OSS的运行信息,判断所述MDS及OSS的运行是否正常,如果不正常,向所述报警模块发送报警命令。
5.根据权利要求1至4任一所述的装置,其特征在于,进一步包括:记录模块;
所述记录模块,与所述LMT相连,用于记录MDS和OSS的异常运行信息及各个OST及MDT的IO吞吐量信息,并形成记录文件。
6.根据权利要求1所述的装置,其特征在于,
所述LMT,对所述文件系统的监控处于资源级别。
7.一种监控Lustre文件系统的方法,其特征在于,包括:
第一RPM监控包采集Lustre文件系统中MDS对应的MDT的IO吞吐量;
第二RPM监控包采集所述Lustre文件系统中OSS对应的OST的IO吞吐量;
LMT根据所述第一RPM监控包和第二RPM监控包各自采集到的IO吞吐量,判断MDT及OST的IO吞吐量是否在安全水平;
根据所述LMT的判断结果,如果超出安全水平,向报警模块发送报警命令;
报警模块接收到所述LMT发送的报警命令后,进行报警。
8.根据权利要求7所述的方法,其特征在于,在所述第一RPM监控包采集Lustre文件系统中MDS对应的MDT的IO吞吐量之前进一步包括:
以窗口的形式向用户展示可供选择的监控对象MDT和OST,接收到用户选择的监控对象标识及各个监控对象对应的安全阈值信息后,将所述被选择的监控对象的标识及各自对应的安全阈值信息发送给所述LMT。
9.根据权利要求8所述的方法,其特征在于,
所述第一RPM监控包采集Lustre文件系统中MDS对应的MDT的IO吞吐量包括:所述第一RPM监控包根据所述监控对象的标识,对用户选择的MDT的IO吞吐量进行采集;
和/或;
所述第二RPM监控包采集所述Lustre文件系统中OSS对应的OST的IO吞吐量包括:所述第二RPM监控包根据所述监控对象的标识,对用户选择的OST的IO吞吐量进行采集;
和/或,
所述根据所述LMT的判断结果,如果超出安全水平,向报警模块发送报警命令包括:所述LMT根据各个监控对象的IO吞吐量的安全阈值,判断各个MDT及OST的IO吞吐量是否超过对应的安全阈值,如果超过,则向所述报警模块发送报警命令。
10.一种监控Lustre文件系统的系统,其特征在于,包括:MDS及对应的MDT,OSS及对应OST,以及权力要求1至5中任一所述的监控Lustre文件系统的装置;
所述MDS,与其对应的MDT相连,用于读取所述MDT中的数据或向所述MDT中存储数据;
所述MDT,用于存储元数据信息,所述元数据信息包括所述OST中所存储文件的路径和/或访问权限;
所述OSS,与其对应的OST相连,用于根据所述MDS发来的路径将对应的文件存储到所述OST中或根据所述MDS发来的路径读取OST中存储的对应文件;
所述OST,用于存储文件。
CN201510404945.4A 2015-07-10 2015-07-10 一种监控Lustre文件系统的装置、方法及系统 Pending CN105045534A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510404945.4A CN105045534A (zh) 2015-07-10 2015-07-10 一种监控Lustre文件系统的装置、方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510404945.4A CN105045534A (zh) 2015-07-10 2015-07-10 一种监控Lustre文件系统的装置、方法及系统

Publications (1)

Publication Number Publication Date
CN105045534A true CN105045534A (zh) 2015-11-11

Family

ID=54452105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510404945.4A Pending CN105045534A (zh) 2015-07-10 2015-07-10 一种监控Lustre文件系统的装置、方法及系统

Country Status (1)

Country Link
CN (1) CN105045534A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912451A (zh) * 2016-04-01 2016-08-31 浪潮电子信息产业股份有限公司 一种lustre文件系统检测方法及装置
CN109302499A (zh) * 2018-11-30 2019-02-01 成都华栖云科技有限公司 一种可兼容访问nas存储和oss存储的存储网关
CN112988500A (zh) * 2019-12-17 2021-06-18 上海商汤智能科技有限公司 文件存储系统的监控方法及设备、系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101997925A (zh) * 2010-11-22 2011-03-30 北京亮点时间科技有限公司 具有预警功能的服务器监控方法及其系统
CN102902615A (zh) * 2012-09-18 2013-01-30 曙光信息产业(北京)有限公司 一种Lustre并行文件系统错误报警方法及其系统
CN103077245A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种利用集群计算节点空闲硬盘空间扩展并行文件系统的方法
CN104503887A (zh) * 2014-12-15 2015-04-08 北京奇虎科技有限公司 计算设备状态展示方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101997925A (zh) * 2010-11-22 2011-03-30 北京亮点时间科技有限公司 具有预警功能的服务器监控方法及其系统
CN102902615A (zh) * 2012-09-18 2013-01-30 曙光信息产业(北京)有限公司 一种Lustre并行文件系统错误报警方法及其系统
CN103077245A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种利用集群计算节点空闲硬盘空间扩展并行文件系统的方法
CN104503887A (zh) * 2014-12-15 2015-04-08 北京奇虎科技有限公司 计算设备状态展示方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912451A (zh) * 2016-04-01 2016-08-31 浪潮电子信息产业股份有限公司 一种lustre文件系统检测方法及装置
CN109302499A (zh) * 2018-11-30 2019-02-01 成都华栖云科技有限公司 一种可兼容访问nas存储和oss存储的存储网关
CN112988500A (zh) * 2019-12-17 2021-06-18 上海商汤智能科技有限公司 文件存储系统的监控方法及设备、系统

Similar Documents

Publication Publication Date Title
CN109034521B (zh) 一种电网调度控制系统的智能运维架构设计方法
CN103853627B (zh) 由与物理机器相关地分析虚拟机器性能问题原因的方法和系统
CN105187249B (zh) 一种故障恢复方法及装置
CN105659528B (zh) 一种实现故障定位的方法及装置
CN103812699A (zh) 基于云计算的监控管理系统
CN103220173B (zh) 一种报警监控方法及监控系统
Meng et al. State monitoring in cloud datacenters
CN110677480B (zh) 一种节点健康管理方法、装置和计算机可读存储介质
CN103412805A (zh) 一种it故障源诊断方法及系统
CN103699063B (zh) 一种制造执行系统mes中离线数据的采集装置和方法
WO2016188100A1 (zh) 信息系统故障场景信息收集方法及系统
CN106201844A (zh) 一种日志收集方法及装置
CN105516081A (zh) 一种服务器下发安全策略的方法、系统及消息队列中间件
CN104618161A (zh) 一种应用集群监控装置及方法
CN105119737A (zh) 一种通过Zabbix监控Ceph集群的方法
CN106487612A (zh) 一种服务器节点监控方法、监控服务器及系统
CN105045534A (zh) 一种监控Lustre文件系统的装置、方法及系统
CN105243004A (zh) 一种故障资源检测方法及装置
CN103716173A (zh) 一种存储监控系统及监控告警发布的方法
CN107544832A (zh) 一种虚拟机进程的监控方法、装置和系统
CN105553743B (zh) 获得日志的方法、系统、第一网络设备及第三网络设备
CN102902615A (zh) 一种Lustre并行文件系统错误报警方法及其系统
CN103607291A (zh) 用于电力二次系统内网安全监视平台的告警解析归并方法
CN106452941A (zh) 网络异常的检测方法及装置
CN111092759A (zh) 一种jbod带外管理系统中日志管理的方法、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151111