CN102902615A - 一种Lustre并行文件系统错误报警方法及其系统 - Google Patents

一种Lustre并行文件系统错误报警方法及其系统 Download PDF

Info

Publication number
CN102902615A
CN102902615A CN2012103483090A CN201210348309A CN102902615A CN 102902615 A CN102902615 A CN 102902615A CN 2012103483090 A CN2012103483090 A CN 2012103483090A CN 201210348309 A CN201210348309 A CN 201210348309A CN 102902615 A CN102902615 A CN 102902615A
Authority
CN
China
Prior art keywords
client
latoolkit
storage
information
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103483090A
Other languages
English (en)
Other versions
CN102902615B (zh
Inventor
刘冠川
王勇
秦东明
何牧君
杨亮
张新风
陈飞
刘超
吕永安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201210348309.0A priority Critical patent/CN102902615B/zh
Publication of CN102902615A publication Critical patent/CN102902615A/zh
Application granted granted Critical
Publication of CN102902615B publication Critical patent/CN102902615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种Lustre并行文件系统错误报警方法集及其系统,其步骤有:(1)监控模块对OSS日志周期性扫描;(2)分析日志信息,判断是否存在故障信息,并将所述故障信息生成告警报告;(3)判断告警报告中的故障是否严重,严重故障生成单独的报告供程序进一步分析。最后再和普通告警信息汇总写入txt文件中,通过mail中转站发送给管理员。本发明对应的系统包括LAToolkit服务端、存储客户端集群、邮件服务器集群和LAToolkit客户端。通过本发明对系统的控制,实现了智能故障分析,形成简明报告,远程通过手机即可了解故障大致状况,节省了检测时间。且本发明成本低,不需要增添新的设备,利用原有设备即可。

Description

一种Lustre并行文件系统错误报警方法及其系统
技术领域
本发明涉及计算机领域,具体涉及一种Lustre并行文件系统错误报警方法及其系统。
背景技术
大规模超算中心一般环境比较复杂,当Lustre并行文件系统发生故障时,关联的因素非常多,通过人工的方法去查找日志等信息来定位问题,通常会耗费大量的时间,故障无法及时得到解决。目前Lustre的监控软件主要用LMT。LMT能够通过Lustre的一些统计信息接口较好的呈现Lustre的历史使用状况,如当前读写速率、空间使用率等等。
LMT能提供一些文件系统IO流量、使用率等信息的统计,但无法进行对系统运行环境、Lustre日志等信息的分析和报警,对于Lustre文件系统运行维护并没有起到太大作用。当Lustre文件系统出现故障时仍然需要较长的时间去分析定位问题,如果管理员不在现场,故障就难以及时发现和解决。
发明内容
针对现有技术的不足,本发明提供一种Lustre并行文件系统错误报警方法及其系统,可以及时的发现故障并通知管理员,减少经济损失。
本发明提供的一种Lustre并行文件系统错误报警方法,其改进之处在于,所述方法包括如下步骤:
(1)监控模块对OSS日志进行周期性扫描;
(2)分析所述日志信息,判断是否存在故障信息,并将所述故障信息生成告警报告;
(3)严重的故障生成单独的报告供程序进一步分析,用于定位问题和自动处理。最后再和普通告警信息汇总写入txt文件中,通过mail中转站发送给管理员。。
其中,步骤(1)所述oss日志包括系统网络质量、Lustre日志信息和heartbeat日志信息。
其中,步骤(2)所述故障信息包括存储故障信息或导致存储出现故障的信息。
其中,步骤(3)所述定位过程包括如下步骤:
1)根据严重故障定位危险客户端,生成待重启节点列表;
2)判断危险客户端是否为僵死客户端,是则重启客户端,否则不予处理,待观察。
3)判断重启的客户端是否有异常,是则将异常信息通过mail中转站发送给管理员,否则属于正常重启,将操作成功日志写入LAToolkit日志中。
其中,步骤2)重启客户端通过向客户端的管理模块控制客户端的电源,将客户端重启。
其中,步骤(3)所述严重故障是指会直接导致存储系统故障的一种类型,其包括出现导致存储服务器死机的故障、出现导致存储服务器后端磁盘出现只读的故障、主备存储服务器间出现切换故障或主备服务器间心跳线故障。
其中,步骤(3)所述普通故障是指不会直接导致存储系统的故障的一种类型,其包括网络轻微丢包、某个邮件服务器故障或日志扫描时间过长现象。
本发明基于另一目的提供的一种Lustre并行文件系统错误报警系统,其改进之处在于,所述报警系统包括LAToolkit服务端、存储客户端集群、邮件服务器集群和LAToolkit客户端;
所述LAToolkit服务端、所述存储客户端集群和所述LAToolkit客户端通过存储网进行数据的交换和存储;
所述LAToolkit服务端、所述存储客户端集群、所述邮件服务器集群和所述LAToolkit客户端通过存储管理网进行数据管理;
所述LAToolkit服务端和所述存储客户端集群通过电源管理网进行服务器的重启。
其中,所述存储客户端集群用于存储客户端集群挂载存储系统;
所述邮件服务器集群用于LAToolkit向外发送告警邮件;
所述LAToolkit客户端部署于Lustre存储服务器(OSS)上,用于采集OSS日志及其他判断存储系统状态的信;
所述LAToolkit服务端部署于Lustre元数据(MDS)/管理(MGS)服务器上,用于处理LAToolkit客户端收集到的信息和处理其他LAToolkit操作。
其中,所述报警系统包括管理终端,所述管理终端通过所述存储管理网对所述LAToolkit服务端、所述存储客户端集群、所述邮件服务器集群和所述LAToolkit客户端进行控制。
其中,所述LAToolkit服务端和所述所述LAToolkit客户端为冗余设置。
与现有技术比,本发明的有益效果为:
本发明故障信息生成txt文件再转给管理员,其方便阅读,能直接查看,且能长期保存作为历史记录供查阅。
本发明日志扫描使用了较为巧妙的方法,扫描速度非常快,因此扫描30多个IO节点的日志然后发送到用户手机仅使用几秒钟时间即可完成。目前该监控程序已在多个超算中心部署效果显著。
本发明成本低,不需要增添新的设备,充分利用老设备。
本发明的实现和Linux内核无关,属于用户态程序,方便部署。
本发明进行冗余设计,如多管理服务器,多mail服务器等,保证系统正常运行。
本发明程序产生的负载非常小。
本发明可无限扩展,可以通过修改配置文件,加入任意数量的存储服务器和邮件服务器,保证了运行速度。
本发明所有操作过程及结果均有日志记录,方便查询。
本发明的智能故障分析,形成简明报告,远程通过手机即可了解故障大致状况。节省了检测时间。
本发明的模块化设计,利于加入更多的监控模块。
本发明的各种保护机制,防止程序误判,保证了系统和方法的正确性。
本发明通过网络隔离,使LAToolkit和外网实现隔离,防止外网攻击。保证系统安全。
附图说明
图1为本发明提供的Lustre并行文件系统错误报警方法的流程图。
图2为本发明提供的Lustre并行文件系统错误报警系统框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
本实施例提出的Lustre,影响Lustre稳定高效运行有几方面的因素:1)集群系统环境,如网络通讯质量、时间同步等等,2)Lustre自身bug。3)其他问题,如超出使用范围等。
系统运行环境和Lustre运行状态可以通过一些测试工具以及日志信息扫描和分析等手段获得,因此对系统运行环境扫描及日志扫描分析和告警,并进行初步的处理是保证大规模Lustre并行文件系统安全稳定运行的可行途径。
本实施例的主要思路是,对系统网络质量、Lustre日志信息、heartbeat日志信息等进行周期性扫描,并对这些信息并发进行分析,当发现存储故障信息或者将会导致存储出现故障的信息,就会将这些信息整合成简明的报告,然后通过e-mail发送给系统管理员,再对故障做初步的自动处理。系统管理员可以通过手机邮件客户端及时收到相关报警,这样即使管理员不在现场也能保证文件系统的运行安全。LAToolkit所有的处理操作都有相应的日志以便对复杂问题人工干预诊断时可以追溯问题。另外,监控程序还会对简明报告进行进一步分析,对部分错误类型能够进行初步的处理,如发现有些僵死客户端,可通过向客户端的管理模块控制客户端的电源,将该客户端重启等等。
具体的,本实施例提出的一种Lustre并行文件系统错误报警方法,其流程图如图1所示,具体包括如下步骤:
(1)监控模块对OSS日志进行周期性扫描;oss日志包括系统网络质量、Lustre日志信息和heartbeat日志信息;
(2)分析所述日志信息,判断是否存在故障信息,并将所述故障信息生成告警报告;其中,故障信息包括存储故障信息或导致存储出现故障的信息。
(3)判断告警报告中的故障是否严重,严重故障则生成检查报告发送给管理员并进行定位过程,普通故障则生成txt文件,通过mail中转站发送给管理员。
所述定位过程包括如下步骤:
1)根据严重故障定位危险客户端,生成待重启节点列表;
2)判断危险客户端是否为僵死客户端,是则通过向客户端的管理模块控制客户端的电源,将客户端重启;否则不予处理,待观察(一般来说如果客户端不僵死,还是能够回应服务端请求的,不至于导致服务端死机,从这个意义上讲,报错但没有出现僵死的客户端是潜在威胁节点,但还没有带来直接的威胁)。
3)判断重启的客户端是否有异常,是则将异常信息通过mail中转站发送给管理员,否则属于正常重启,将操作成功日志写入LAToolkit日志中。其中,mail中转站设有数据库,将故障根据策略生成对应的mail list。本实施例的异常包括1.因为网络问题或者是电源管理模块问题,发送电源重启指令失败;2.客户端出现硬件故障无法重启;3.其他导致客户端重启时间过长的问题。
其中,所述严重故障是指会直接导致存储系统故障的一种类型,其包括出现导致存储服务器死机的故障、出现导致存储服务器后端磁盘出现只读的故障、主备存储服务器间出现切换故障或主备服务器间心跳线故障。
所述普通故障是指不会直接导致存储系统的故障的一种类型,其包括网络轻微丢包、某个邮件服务器故障或日志扫描时间过长现象。
本实施例所述的Lustre来源于Linux和Cluster两个词,顾名思义,Lustre即是一种面向集群的网络文件系统架构。它支持数万客户端系统、PB级存储容量、数百GB的聚合I/O吞吐带宽。Lustre借助其强大的横向扩展能力,通过增加服务器即可方便地扩展系统存储总量和IO性能。Lustre适用于各种不同的应用环境,尤其适合众多客户端并发进行大文件读写的场合。目前,世界超级计算机TOP10中的70%都采用Lustre作为并行文件系统,另外,Lustre在石油、天然气、制造、金融、科研等各行业领域大量部署应用。
对应的,本实施例提出的一种Lustre并行文件系统错误报警系统,其示意图如图2所示,所述报警系统包括LAToolkit服务端、存储客户端集群、邮件服务器集群、LAToolkit客户端和管理终端;
所述LAToolkit服务端、所述存储客户端集群和所述LAToolkit客户端通过存储网进行数据的交换和存储;所述LAToolkit服务端、所述存储客户端集群、所述邮件服务器集群和所述LAToolkit客户端通过存储管理网进行数据管理;所述LAToolkit服务端和所述存储客户端集群通过电源管理网进行服务器的重启;所述管理终端通过所述存储管理网对所述LAToolkit服务端、所述存储客户端集群、所述邮件服务器集群和所述LAToolkit客户端进行控制。而且,本实施例的LAToolkit服务端和所述LAToolkit客户端为冗余设置。
其中:
1)Lustre并行存储系统:
a)主MGS/MDS(存储管理/元数据服务器)、备MGS/MDS(存储管理/元数据服务器):整个存储系统的元数据保存在该服务器上,另外Lustre存储系统的管理功能也集成在该服务器上。系统中有两台这样的服务器,他们互为主备。平时一台服务器对外提供服务,同时将数据同步到另外一台服务器上。两台服务器间通过心跳网判断节点健康状况,当发现主服务器故障时,业务自动迁移到备服务器上。
b)主OSS(存储服务器)集群、备OSS(存储服务器)集群:用于保存存储系统数据,系统中的服务器两两互为主备。平时一台服务器对外提供服务,同时将数据同步到另外一台服务器上。两台服务器间通过心跳网判断节点健康状况,当发现主服务器故障时,业务自动迁移到备服务器上。
c)存储客户端集群:用户通过存储客户端挂载和使用Lustre存储系统。
d)存储网络:Lustre存储系统中MDS/MGS、OSS、存储客户端间的交互和数据传输所走的网络。一般为高速网,如万兆网或Infiniband网络。
2)LAToolkit服务端:LAToolkit主程序所在的服务器。目前LAToolkit主程序部署在MGS/MDS上,因此MGS/MDS同时也是LAToolkit的服务端。
3)LATooolkit客户端:LAToolkit信息收集代理程序所在的服务器。目前LAToolkit信息收集代理程序部署在OSS上,因此OSS同时也是LAToolkit客户端。
4)普通管理网:普通管理操作所走的网络。包括LAToolkit服务端和客户端间的交互,LAToolkit服务端和邮件服务器集群间的交互都通过这套网络进行。
5)电源管理网:控制存储客户端、OSS电源所走的网络。
6)邮件服务器集群:除邮件服务器外,其他所有服务器均在内网当中。LAToolkit将信息发送到邮件服务器上,再通过邮件服务器发送到因特网上。LAToolkit可访问邮件服务器,邮件服务器不能反过来访问LAToolkit,实现LAToolkit和外网的隔离,保证系统免遭外网攻击。
具体的,本实施例的报警系统实现的功能为:
首先LAToolkit主程序定时发起扫描进程。LAToolkit客户端负责部分信息的扫描和分析,这些信息包括OSS负载状态、OSS心跳日志、OSS系统日志等等,然后进行初步的处理,再反馈给LAToolkit主程序。LAToolkit主程序对于OSS反馈的信息进行进一步处理,对于危及存储系统稳定的信息整理形成单独的简明报告,对于一般的告警信息直接作为每次检查报告。
LAToolkit主程序本身还会主动侦测网络健康状态等信息。LAToolkit主程序在一定的时间限制内收集到所有信息,对于信息反馈较慢的情况给出报警信息。另外,还有一些其他的情况,如LAToolkit无法处理的信息等,这些信息属于非OSS反馈的信息,也直接作为每次检查报告。
“每次检查报告”进一步做信息筛选、整理和“简明告警报告”一起整合到mail2sugon.txt文件中。然后发送到邮件服务器上,通过邮件服务器发送给移动终端或网页。
对于“简明告警报告”,LAToolkit还会从中定位“危险存储客户端”,并从数据库中获取这些节点的电源管理指令信息,形成待重启节点列表,然后统一通过电源管理网发送电源重启指令给电源管理模块重启“危险存储客户端”。重启后,LAToolkit每隔一段时间检查重启的节点的状态,重启成功则按正常流程将成功重启信息写入LAToolkit日志中,如果有异常则将异常信息发送给邮件服务器,通过邮件服务器将异常信息发送给移动终端或网页。同时将异常信息写入LAToolkit日志。实际上,LAToolkit的每一步操作都会记录到LAToolkit日志中的。
要通过邮件服务器发送信息需要确定邮件服务器的状态是否是好的,因此在发送邮件前需要检测邮件服务器,如果状态为“好”则直接将信息发送给邮件服务器,并由邮件服务器将信息转发出去。如果状态为“坏”,则再测试下一台邮件服务器,直到遇到状态为“好”的邮件服务器。如果前面检测到邮件服务器有故障,则将这些故障信息一并通过状态为“好”的那台邮件服务器发送给移动终端或网页。
另外,发送邮件还需要一个邮件列表,LAToolkit会根据告警信息的级别,按一定的策略形成邮件列表供邮件服务器使用。
本实施例所述的LMT为Lustre Monitoring Tool。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种Lustre并行文件系统错误报警方法,其特征在于,所述方法包括如下步骤:
(1)监控模块对OSS日志进行周期性扫描;
(2)分析所述日志信息,判断是否存在故障信息,并将所述故障信息生成告警报告;
(3)严重故障生成单独的报告供程序进一步分析,用于定位问题和自动处理;最后再和普通告警信息汇总写入txt文件中,通过mail中转站发送给管理员。
2.如权利要求1所述的报警方法,其特征在于,步骤(1)所述oss日志包括系统网络质量、Lustre日志信息和heartbeat日志信息。
3.如权利要求1所述的报警方法,其特征在于,步骤(2)所述故障信息包括存储故障信息或导致存储出现故障的信息。
4.如权利要求1所述的报警方法,其特征在于,步骤(3)所述定位过程包括如下步骤:
1)根据严重故障定位危险客户端,生成待重启节点列表;
2)判断危险客户端是否为僵死客户端,是则重启客户端,否则不予处理,待观察;
3)判断重启的客户端是否有异常,是则将异常信息通过mail中转站发送给管理员,否则属于正常重启,将操作成功的日志写入LAToolkit日志中。
5.如权利要求4所述的报警方法,其特征在于,步骤2)重启客户端通过向客户端的管理模块控制客户端的电源,将客户端重启。
6.如权利要求1所述的报警方法,其特征在于,步骤(3)所述严重故障是指会直接导致存储系统故障的一种类型,其包括出现导致存储服务器死机的故障、出现导致存储服务器后端磁盘出现只读的故障、主备存储服务器间出现切换故障或主备服务器间心跳线故障。
7.如权利要求1所述的报警方法,其特征在于,步骤(3)所述普通故障是指不会直接导致存储系统的故障的一种类型,其包括网络轻微丢包、某个邮件服务器故障或日志扫描时间过长现象。
8.一种Lustre并行文件系统错误报警系统,其特征在于,所述报警系统包括LAToolkit服务端、存储客户端集群、邮件服务器集群和LAToolkit客户端;
所述LAToolkit服务端、所述存储客户端集群和所述LAToolkit客户端通过存储网进行数据的交换和存储;
所述LAToolkit服务端、所述存储客户端集群、所述邮件服务器集群和所述LAToolkit客户端通过存储管理网进行数据管理;
所述LAToolkit服务端和所述存储客户端集群通过电源管理网进行服务器的重启。
9.如权利要求8所述的报警系统,其特征在于,所述存储客户端集群用于存储客户端集群挂载存储系统;
所述邮件服务器集群用于LAToolkit向外发送告警邮件;
所述LAToolkit客户端部署于Lustre存储服务器上,用于采集OSS日志及其他判断存储系统状态的信息;
所述LAToolkit服务端部署于Lustre元数据/管理服务器上,用于处理LAToolkit客户端收集到的信息和处理其他LAToolkit操作。
10.如权利要求8所述的报警系统,其特征在于,所述报警系统包括管理终端,所述管理终端通过所述存储管理网对所述LAToolkit服务端、所述存储客户端集群、所述邮件服务器集群和所述LAToolkit客户端进行控制。
CN201210348309.0A 2012-09-18 2012-09-18 一种Lustre并行文件系统错误报警方法及其系统 Active CN102902615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210348309.0A CN102902615B (zh) 2012-09-18 2012-09-18 一种Lustre并行文件系统错误报警方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210348309.0A CN102902615B (zh) 2012-09-18 2012-09-18 一种Lustre并行文件系统错误报警方法及其系统

Publications (2)

Publication Number Publication Date
CN102902615A true CN102902615A (zh) 2013-01-30
CN102902615B CN102902615B (zh) 2016-12-21

Family

ID=47574861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210348309.0A Active CN102902615B (zh) 2012-09-18 2012-09-18 一种Lustre并行文件系统错误报警方法及其系统

Country Status (1)

Country Link
CN (1) CN102902615B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103384209A (zh) * 2013-06-07 2013-11-06 曙光信息产业(北京)有限公司 一种Parastor200并行存储运行环境问题检查方法
CN104462606A (zh) * 2014-12-31 2015-03-25 中国科学院深圳先进技术研究院 一种基于日志数据确定诊断处理措施的方法
CN105045534A (zh) * 2015-07-10 2015-11-11 浪潮电子信息产业股份有限公司 一种监控Lustre文件系统的装置、方法及系统
CN105335270A (zh) * 2015-09-24 2016-02-17 北京京东尚科信息技术有限公司 服务器定位方法以及系统
CN105579973A (zh) * 2014-01-10 2016-05-11 株式会社日立制作所 冗余系统以及冗余系统管理方法
CN106201752A (zh) * 2016-06-28 2016-12-07 浪潮(北京)电子信息产业有限公司 Linux系统的多路径IO错误事件收集方法及系统
CN106953759A (zh) * 2017-03-22 2017-07-14 联想(北京)有限公司 集群控制方法和集群控制设备
CN108259242A (zh) * 2018-01-12 2018-07-06 深圳市卓讯信息技术有限公司 基于双机容灾备份保障机制的数据交换管理方法、终端、系统及计算机可读存储介质
CN109445993A (zh) * 2018-11-02 2019-03-08 郑州云海信息技术有限公司 一种文件系统健康状况的检测方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6397167B2 (en) * 1995-04-17 2002-05-28 Discovision Associates Time and activity tracker with hardware abstraction layer
CN101022363A (zh) * 2007-03-23 2007-08-22 杭州华为三康技术有限公司 网络存储设备的故障保护方法及装置
CN101589370A (zh) * 2007-02-02 2009-11-25 国际商业机器公司 大规模并行计算机系统上的故障恢复以处理节点故障而不结束执行的作业
CN102169448A (zh) * 2011-03-18 2011-08-31 浪潮电子信息产业股份有限公司 一种集群并行运算环境的部署方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6397167B2 (en) * 1995-04-17 2002-05-28 Discovision Associates Time and activity tracker with hardware abstraction layer
CN101589370A (zh) * 2007-02-02 2009-11-25 国际商业机器公司 大规模并行计算机系统上的故障恢复以处理节点故障而不结束执行的作业
CN101022363A (zh) * 2007-03-23 2007-08-22 杭州华为三康技术有限公司 网络存储设备的故障保护方法及装置
CN102169448A (zh) * 2011-03-18 2011-08-31 浪潮电子信息产业股份有限公司 一种集群并行运算环境的部署方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
杨俊华: "云计算平台管理的三大利器Nagios、Ganglia和Splunk", 《程序员》, no. 9, 1 September 2011 (2011-09-01) *
钱迎进: "大规模Lustre集群文件系统关键技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 4, 15 April 2012 (2012-04-15) *
霍严梅: "一种有效的并行文件系统容错方法", 《吉林大学学报(理学版)》, vol. 44, no. 6, 26 November 2006 (2006-11-26) *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103384209A (zh) * 2013-06-07 2013-11-06 曙光信息产业(北京)有限公司 一种Parastor200并行存储运行环境问题检查方法
CN103384209B (zh) * 2013-06-07 2017-02-22 曙光信息产业(北京)有限公司 一种Parastor200并行存储运行环境问题检查方法
US10055004B2 (en) 2014-01-10 2018-08-21 Hitachi, Ltd. Redundant system and redundant system management method
CN105579973A (zh) * 2014-01-10 2016-05-11 株式会社日立制作所 冗余系统以及冗余系统管理方法
CN104462606A (zh) * 2014-12-31 2015-03-25 中国科学院深圳先进技术研究院 一种基于日志数据确定诊断处理措施的方法
CN104462606B (zh) * 2014-12-31 2018-06-22 中国科学院深圳先进技术研究院 一种基于日志数据确定诊断处理措施的方法
CN105045534A (zh) * 2015-07-10 2015-11-11 浪潮电子信息产业股份有限公司 一种监控Lustre文件系统的装置、方法及系统
CN105335270B (zh) * 2015-09-24 2018-03-23 北京京东尚科信息技术有限公司 服务器定位方法以及系统
CN105335270A (zh) * 2015-09-24 2016-02-17 北京京东尚科信息技术有限公司 服务器定位方法以及系统
CN106201752A (zh) * 2016-06-28 2016-12-07 浪潮(北京)电子信息产业有限公司 Linux系统的多路径IO错误事件收集方法及系统
CN106201752B (zh) * 2016-06-28 2019-06-18 浪潮(北京)电子信息产业有限公司 Linux系统的多路径IO错误事件收集方法及系统
CN106953759A (zh) * 2017-03-22 2017-07-14 联想(北京)有限公司 集群控制方法和集群控制设备
CN106953759B (zh) * 2017-03-22 2020-05-26 联想(北京)有限公司 集群控制方法和集群控制设备
CN108259242A (zh) * 2018-01-12 2018-07-06 深圳市卓讯信息技术有限公司 基于双机容灾备份保障机制的数据交换管理方法、终端、系统及计算机可读存储介质
CN108259242B (zh) * 2018-01-12 2022-08-12 深圳市卓讯信息技术有限公司 基于双机容灾备份保障机制的数据交换管理方法、终端、系统及计算机可读存储介质
CN109445993A (zh) * 2018-11-02 2019-03-08 郑州云海信息技术有限公司 一种文件系统健康状况的检测方法及相关装置

Also Published As

Publication number Publication date
CN102902615B (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
CN102902615A (zh) 一种Lustre并行文件系统错误报警方法及其系统
CN112313916B (zh) 一种融合区块链技术拟态存储防篡改日志的方法及系统
US11354131B2 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
US11379292B2 (en) Baseline modeling for application dependency discovery, reporting, and management tool
US11868237B2 (en) Intelligent services for application dependency discovery, reporting, and management tool
US11620211B2 (en) Discovery crawler for application dependency discovery, reporting, and management tool
US11663055B2 (en) Dependency analyzer in application dependency discovery, reporting, and management tool
US10915428B2 (en) Intelligent services and training agent for application dependency discovery, reporting, and management tool
US9053166B2 (en) Dynamically varying the number of database replicas
US9450700B1 (en) Efficient network fleet monitoring
CN103812699A (zh) 基于云计算的监控管理系统
US11675692B2 (en) Testing agent for application dependency discovery, reporting, and management tool
CN107547273B (zh) 一种电力系统虚拟实例高可用的保障方法及系统
CN102231681A (zh) 一种高可用集群计算机系统及其故障处理方法
CN102981939B (zh) 磁盘监控方法
CN112905410B (zh) 设备状态监控系统及方法
CN113765717A (zh) 一种基于涉密专用计算平台的运维管理系统
Chandra et al. Co-designing the failure analysis and monitoring of large-scale systems
CN113609199B (zh) 数据库系统、服务器及存储介质
Wijaya et al. Development Of Netwatch Host Using Telegram As A Strengthening Model Of Institutional Performance Quality Governance
CN117762740A (zh) 数据安全监控的方法、系统、设备及介质
CN118095494A (zh) 一种模型训练方法、装置、计算机设备及可读存储介质
Kellerer et al. Modeling of service availability

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220727

Address after: 100193 No. 36 Building, No. 8 Hospital, Wangxi Road, Haidian District, Beijing

Patentee after: Dawning Information Industry (Beijing) Co.,Ltd.

Patentee after: DAWNING INFORMATION INDUSTRY Co.,Ltd.

Address before: 100193 No.36 Zhongguancun Software Park, No.8 Dongbeiwang West Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

TR01 Transfer of patent right