CN111858176A - 一种远程监控故障自愈系统和方法 - Google Patents
一种远程监控故障自愈系统和方法 Download PDFInfo
- Publication number
- CN111858176A CN111858176A CN202010710317.XA CN202010710317A CN111858176A CN 111858176 A CN111858176 A CN 111858176A CN 202010710317 A CN202010710317 A CN 202010710317A CN 111858176 A CN111858176 A CN 111858176A
- Authority
- CN
- China
- Prior art keywords
- fault
- self
- healing
- equipment
- information data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000001960 triggered effect Effects 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 abstract description 13
- 238000011084 recovery Methods 0.000 abstract description 8
- 230000003203 everyday effect Effects 0.000 abstract description 3
- 230000003252 repetitive effect Effects 0.000 abstract description 3
- 230000000007 visual effect Effects 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 12
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1479—Generic software techniques for error detection or fault masking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2294—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by remote test
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及一种远程监控故障自愈系统和方法,该系统包括:数据获取模块(1):获取监控的设备的信息数据;故障发现定位模块(2):基于设备的信息数据确定故障并定位故障位置;自愈处理模块(3):匹配故障情景,基于故障情景对发生故障的设备进行远程故障修复。与现有技术相比,本发明大大降低了排除故障设备的等待时间,同时维护人员不必每天处理相同的故障类型和重复性的操作,不仅仅节约了人力时间成本,还提高了工作效率,同时提高了设备和系统的维护和管理的标准化,流程化,业务恢复可视化、远程故障自愈系统平台,也为业务的运行保障提供了有力的技术支撑。
Description
技术领域
本发明涉及IT运维和管理技术领域,尤其是涉及一种远程监控故障自愈系统和方法。
背景技术
随着各行业对计算机依赖性的日益提高,计算机信息系统的发展使得作为其网络设备、主机服务器、数据存储设备、网络安全设备等核心设备日益显现出它的重要地位,而运维保障,故障快速处理为业务提供服务保障变得很重要。
目前许多系统管理人员采用专人运维,定时巡查系统和设备,当发生故障的时候,就需要设备或是系统的专业人员手动登录到各个系统里面进行执行处理,这样不仅耽误了故障处理的黄金宝贵时间,而且容易遭受高级权限信息泄露的风险,存在安全隐患,而且更多的时候,并不能及时排除故障,可能需要技术人员分析大量的日志信息造成时间占用,导致业务无法正常使用。因此,为满足工作需要,提高运维效率和保障系统管理的安全性和高效性,有必要提供一种远程化、自动化的监控故障自愈处理系统,为IT运维和管理提供有力的技术支持。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种远程监控故障自愈系统和方法。
本发明的目的可以通过以下技术方案来实现:
一种远程监控故障自愈系统,该系统包括:
数据获取模块:获取监控的设备的信息数据;
故障发现定位模块:基于设备的信息数据确定故障并定位故障位置;
自愈处理模块:匹配故障情景,基于故障情景对发生故障的设备进行远程故障修复。
优选地,所述的数据获取模块通过Agent或SSH自动获取设备的信息数据。
优选地,所述的自愈处理模块包括:
规则库:存储有用于根据确定的故障匹配故障情景的匹配规则;
脚本库:存储不同故障情景下进行故障修复的自愈脚本文件;
执行组件:该组件首先基于确定的故障调用规则库进行故障情景匹配,然后调用脚本库中相应故障情景下的自愈脚本文件对发生故障的设备进行远程的网络执行,完成故障修复。
优选地,所述的自愈处理模块还包括备份启动组件,所述的备份启动组件用于在对发生故障的设备进行故障修复失败后启动备份设备替代发生故障的设备。
优选地,该系统还包括业务视图展示模块,该模块基于设备的信息数据调用 CMDB模块的数据展示组件实时动态显示各设备的状态信息以及设备告警信息。
一种远程监控故障自愈方法,该方法包括以下步骤:
S1、获取监控的设备的信息数据;
S2、基于设备的信息数据确定故障并定位故障位置;
S3、针对确定的故障匹配故障情景,基于故障情景对发生故障的设备进行远程故障修复。
优选地,步骤S1中设备的信息数据通过Agent或SSH自动获取。
优选地,步骤S3具体为:首先,调用预先存储的规则库,基于确定的故障进行故障情景匹配,然后,调用预先存储的脚本库中相应故障情景下的自愈脚本文件,最后,对发生故障的设备远程式网络执行自愈脚本文件,完成故障修复。
优选地,步骤S3中对发生故障的设备执行自愈脚本文件失败后触发启动备份设备替代发生故障的设备。
优选地,步骤S1后还包括基于设备的信息数据调用CMDB模块的数据展示组件实时动态显示各设备的状态信息以及设备告警信息。
与现有技术相比,本发明具有如下优点:
(1)本发明在监控的设备发生故障时,自动根据故障告警信息自动适配故障自愈的处理模板(自愈脚本文件),根据历史数据和经验设置的触发条件进行故障自动处理远程执行,通过执行定义的脚本文件或是命令参数等,对设备和系统进行远程执行后修复故障操作,不需要发现了故障现象,然后再进行人工的故障排除和检查分析日志,同时也不需要每次向各类设备和系统询问管理秘钥,大大降低了排除故障设备的等待时间,同时维护人员不必每天处理相同的故障类型和重复性的操作,不仅仅节约了人力时间成本,还提高了工作效率。
(2)本发明设置业务视图展示模块可以查看到设备的运行状态情况,系统可视化程度高;
(3)本发明提高了设备和系统的维护和管理的标准化,流程化,业务恢复可视化、远程故障自愈系统平台,也为业务的运行保障提供了有力的技术支撑。
附图说明
图1为本发明远程监控故障自愈系统的结构示意图;
图2为本发明远程监控故障自愈系统操作流程示意图;
图3为本发明远程监控故障自愈方法的流程框图。
图中,1为数据获取模块,2为故障发现定位模块,3为自愈处理模块,4为 CMDB模块,5为监控的设备和/或系统。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
如图1所示,一种远程监控故障自愈系统,该系统通过对各类的监控的设备或系统5(如图1中的服务器、存储设备、网络设备和操作系统)进行监测,下文将监控的设备或系统5简称为监控的设备,然后通过传输网络发送给监控服务器,为设备的故障报警、故障分析,提供及时、必要的数据信息,当出现异常报警情况时,远程监控故障自愈系统的自愈处理模块3能够根据管理员设置的触发条件,执行策略,相关预置文件,系统自动判断是否执行相关的设备修复策略,然后进行远程的命令式修复执行。当系统修复失败的时候,能够根据策略做自动恢复操作。
具体地,本发明的远程监控故障自愈系统包括:
数据获取模块1:获取监控的设备的信息数据,数据获取模块1通过Agent或 SSH并基于SNMP,IPMI等标准协议自动获取设备的信息数据。
故障发现定位模块2:基于设备的信息数据确定故障并定位故障位置。
自愈处理模块3:匹配故障情景,基于故障情景对发生故障的设备进行远程故障修复,故障自愈恢复设计的主要思量是管理员根据系统常见故障和处理办法,统计汇总出日常使用的自愈脚本文件,然后储存在脚本库中,当监控系统主动发现了相同故障情景的时候,调用自愈脚本文件进行远程的网络执行即可实现对设备的故障恢复,基于此,自愈处理模块3包括:
规则库:存储有用于根据确定的故障匹配故障情景的匹配规则;
脚本库:存储不同故障情景下进行故障修复的自愈脚本文件;
执行组件:该组件首先基于确定的故障调用规则库进行故障情景匹配,然后调用脚本库中相应故障情景下的自愈脚本文件对发生故障的设备进行远程的网络执行,完成故障修复。
自愈处理模块3还包括备份启动组件,备份启动组件用于在对发生故障的设备进行故障修复失败后启动备份设备替代发生故障的设备。备份启动组件是在设备和系统已经执行了故障自愈后,仍然没有恢复的,根据恢复策略,将启用备用系统和设备进行相关配置和服务的切换,即可理解为自动化启用备份系统。
该系统还包括业务视图展示模块,该模块基于设备的信息数据调用CMDB模块的数据展示组件实时动态显示各设备的状态信息以及设备告警信息,配置管理数据库(Configuration Management Database,CMDB)是一个逻辑数据库,包含了配置项全生命周期的信息以及配置项之间的关系(包括物理关系、实时通信关系、非实时通信关系和依赖关系),CMDB存储与管理企业IT架构中设备的各种配置信息,它与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。
图2为本发明远程监控故障自愈系统操作流程示意图,用户可直接点击进监控服务器,点击地图进入站点列表,选择要查看的站点,进入一个站点的数据中心后可以查看机房中的机柜列表,并可看到所有设备的运行状态,点击机柜可查看机柜上设备的详细信息。都会在前端界面上展示出来。
本发明实施例管理员可以统计查看以数据中心机柜为单位的,每个时间段的故障自愈的设备情况,告警信息,管理人员可针对单个设备、类型、时间等条件组合统计。查看机柜中各类安装设备的实际过程中发生的告警情况。本发明可以从监控系统实时采集数据信息,数据经过过滤、处理后,反映到CMDB的服务器位置界面上,运维人员可以清楚地了解到设备和系统的的工作状况。当任意设备出现异常情况时,展示界面能够根据不同展示线条颜色来让运维人员区别是否异常,提醒监控人员注意。同时如果触发了故障自愈事件,恢复后设备颜色会立刻改变。
如图3所示,一种远程监控故障自愈方法,该方法包括以下步骤:
S1、获取监控的设备的信息数据;
S2、基于设备的信息数据确定故障并定位故障位置;
S3、针对确定的故障匹配故障情景,基于故障情景对发生故障的设备进行远程故障修复。
步骤S1中设备的信息数据通过Agent或SSH自动获取。
步骤S3具体为:首先,调用预先存储的规则库,基于确定的故障进行故障情景匹配,然后,调用预先存储的脚本库中相应故障情景下的自愈脚本文件,最后,对发生故障的设备远程式网络执行自愈脚本文件,完成故障修复。
步骤S3中对发生故障的设备执行自愈脚本文件失败后触发启动备份设备替代发生故障的设备。
步骤S1后还包括基于设备的信息数据调用CMDB模块4数据展示组件实时动态显示各设备的状态信息以及设备告警信息。
IT设备和系统稳定运行是确保用户正常开展与发展业务的关键,但同时也面临着诸多问题,如复杂的管理系统、传统专家级别的管理操作界面、很多孤立信息或抽象展现,繁琐的权限申请流程,大量的无序故障日志信息,当软硬件设备和系统发生故障的时候,还要人工的方式通过各类工具,管理系统,进行手动执行操作等。远程的监控故障自愈系统,可以实现基于监控系统的实时发现告警,预诊断分析,远程自动化的方式进行设备和系统的故障修复和处理,并打通周边系统实现整个流程的闭环,主动监控-故障发现-故障自愈-信息更新-数据记录。不仅高效,而且执行操作不会发生像人工操作那样产生的各类失误操作,或是执行了高危风险而没有被审核的命令和操作,同时,整合现有监控工具的监控能力与监控数据,故障恢复展示历史数据统计分析,方便管理人员更佳直观的掌握各类系统的维护历史情况,以提升IT管理效率。避免人工登录各类系统进行操作,努力争取做到监控故障运维的标准化,规范化、自动化。同时保留和记录了大量的运维经验,形成自动化运维的经验库,使的系统以后故障处理更佳快速,高效,低风险。
本发明远程监控故障自愈系统是监控系统的一个功能模块的子系统,故障自愈是IT故障处理提供了一种高效、自动化、故障处理的新模式,监控发现故障及时自动处理,努力做到减少故障停机处理时间,也是保障业务稳定运行的价值所在。
本发明监控故障自愈系统支持windows,linux等操作系统的故障,通过监控主动发现后,进行故障自愈执行操作的。
以下对2中故障情景进行说明
1、操作系统磁盘日志空间满了后执行清理近期文件服务(故障情景1):
该故障情景下的故障情况如:在windows系统下情况下,磁盘的D盘已经被占用满了,已经无法写入文件,监控系统已经触发了告警。
则进行故障自愈的方式为:支持定义脚本内容,将指定时间外的文件全部进行删除操作,或是压缩操作,释放出可用磁盘空间。在下一个监控周期内故障将自动解除
2、操作系统进程服务异常停止后告警自动重启服务(故障情景2):
该故障情景下的故障情况如:在windows系统情况下,应用服务的进程卡死。在系统服务里面已经注册叫update。
则进行故障自愈的方式为:在监控到故障的时候,故障自愈系统自动执行重启服务,将服务自动重启后,继续提供服务。
表1本发明远程监控故障自愈系统和方法与传统自愈系统和方法的对比表
表1为本发明远程监控故障自愈系统和方法与传统自愈系统和方法的对比表,其优势明显,本发明在监控的设备发生故障时,自动根据故障告警信息自动适配故障自愈的处理模板(自愈脚本文件),根据历史数据和经验设置的触发条件进行故障自动处理远程执行,通过执行定义的脚本文件或是命令参数等,对设备和系统进行远程执行后修复故障操作,不需要发现了故障现象,然后再进行人工的故障排除和检查分析日志,同时也不需要每次向各类设备和系统询问管理秘钥,大大降低了排除故障设备的等待时间,同时维护人员不必每天处理相同的故障类型和重复性的操作,不仅仅节约了人力时间成本,还提高了工作效率。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。
Claims (10)
1.一种远程监控故障自愈系统,其特征在于,该系统包括:
数据获取模块(1):获取监控的设备的信息数据;
故障发现定位模块(2):基于设备的信息数据确定故障并定位故障位置;
自愈处理模块(3):匹配故障情景,基于故障情景对发生故障的设备进行远程故障修复。
2.根据权利要求1所述的一种远程监控故障自愈系统,其特征在于,所述的数据获取模块(1)通过Agent或SSH自动获取设备的信息数据。
3.根据权利要求1所述的一种远程监控故障自愈系统,其特征在于,所述的自愈处理模块(3)包括:
规则库:存储有用于根据确定的故障匹配故障情景的匹配规则;
脚本库:存储不同故障情景下进行故障修复的自愈脚本文件;
执行组件:该组件首先基于确定的故障调用规则库进行故障情景匹配,然后调用脚本库中相应故障情景下的自愈脚本文件对发生故障的设备进行远程的网络执行,完成故障修复。
4.根据权利要求3所述的一种远程监控故障自愈系统,其特征在于,所述的自愈处理模块(3)还包括备份启动组件,所述的备份启动组件用于在对发生故障的设备进行故障修复失败后启动备份设备替代发生故障的设备。
5.根据权利要求1所述的一种远程监控故障自愈系统,其特征在于,该系统还包括业务视图展示模块,该模块基于设备的信息数据调用CMDB模块的数据展示组件实时动态显示各设备的状态信息以及设备告警信息。
6.一种远程监控故障自愈方法,其特征在于,该方法包括以下步骤:
S1、获取监控的设备的信息数据;
S2、基于设备的信息数据确定故障并定位故障位置;
S3、针对确定的故障匹配故障情景,基于故障情景对发生故障的设备进行远程故障修复。
7.根据权利要求6所述的一种远程监控故障自愈方法,其特征在于,步骤S1中设备的信息数据通过Agent或SSH自动获取。
8.根据权利要求6所述的一种远程监控故障自愈方法,其特征在于,步骤S3具体为:首先,调用预先存储的规则库,基于确定的故障进行故障情景匹配,然后,调用预先存储的脚本库中相应故障情景下的自愈脚本文件,最后,对发生故障的设备远程式网络执行自愈脚本文件,完成故障修复。
9.根据权利要求8所述的一种远程监控故障自愈方法,其特征在于,步骤S3中对发生故障的设备执行自愈脚本文件失败后触发启动备份设备替代发生故障的设备。
10.根据权利要求8所述的一种远程监控故障自愈方法,其特征在于,步骤S1后还包括基于设备的信息数据调用CMDB模块的数据展示组件实时动态显示各设备的状态信息以及设备告警信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010710317.XA CN111858176A (zh) | 2020-07-22 | 2020-07-22 | 一种远程监控故障自愈系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010710317.XA CN111858176A (zh) | 2020-07-22 | 2020-07-22 | 一种远程监控故障自愈系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111858176A true CN111858176A (zh) | 2020-10-30 |
Family
ID=73000851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010710317.XA Pending CN111858176A (zh) | 2020-07-22 | 2020-07-22 | 一种远程监控故障自愈系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858176A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112799909A (zh) * | 2021-01-26 | 2021-05-14 | 上海瀚银信息技术有限公司 | 一种服务器自动化管理系统及方法 |
CN113326953A (zh) * | 2021-06-17 | 2021-08-31 | 万国数据服务有限公司 | 一种电源设备智能监控控制方法及系统 |
CN113625672A (zh) * | 2021-08-11 | 2021-11-09 | 桐乡华锐自控技术装备有限公司 | 一种设备监控方法、装置及存储介质 |
CN114185290A (zh) * | 2021-12-02 | 2022-03-15 | 湖北电行科技有限公司 | 一种基于mas的多无人系统监督控制系统 |
CN114356615A (zh) * | 2021-12-07 | 2022-04-15 | 广州地铁集团有限公司 | 基于物联网轨道交通软件与应用故障自愈的解决方法 |
CN114765571A (zh) * | 2021-01-14 | 2022-07-19 | 中国石油天然气股份有限公司 | 数据中心运维的管理方法、装置和电子设备 |
CN114973844A (zh) * | 2022-06-28 | 2022-08-30 | 中车青岛四方车辆研究所有限公司 | 一种轨道车辆网络显示屏操作仿真方法及系统 |
CN115314364A (zh) * | 2022-06-21 | 2022-11-08 | 华能南通燃机发电有限公司 | 环保数据传输实时监控报警系统 |
WO2022247675A1 (zh) * | 2021-05-24 | 2022-12-01 | 中兴通讯股份有限公司 | 设备运维方法、网络设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150149835A1 (en) * | 2013-11-26 | 2015-05-28 | International Business Machines Corporation | Managing Faults in a High Availability System |
CN105337765A (zh) * | 2015-10-10 | 2016-02-17 | 上海新炬网络信息技术有限公司 | 一种分布式hadoop集群故障自动诊断修复系统 |
CN107491375A (zh) * | 2017-08-18 | 2017-12-19 | 国网山东省电力公司信息通信公司 | 一种云计算环境下的设备检测及故障预警系统及方法 |
CN107612756A (zh) * | 2017-10-31 | 2018-01-19 | 广西宜州市联森网络科技有限公司 | 一种具有智能故障分析处理功能的运维管理系统 |
CN110162279A (zh) * | 2019-05-21 | 2019-08-23 | 欧冶云商股份有限公司 | 一种打印系统及处理方法 |
CN110430071A (zh) * | 2019-07-19 | 2019-11-08 | 云南电网有限责任公司信息中心 | 业务节点故障自愈方法、装置、计算机设备及存储介质 |
CN111181767A (zh) * | 2019-12-10 | 2020-05-19 | 中国航空工业集团公司成都飞机设计研究所 | 一种面向复杂系统的监控和故障自愈系统及其方法 |
-
2020
- 2020-07-22 CN CN202010710317.XA patent/CN111858176A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150149835A1 (en) * | 2013-11-26 | 2015-05-28 | International Business Machines Corporation | Managing Faults in a High Availability System |
CN105337765A (zh) * | 2015-10-10 | 2016-02-17 | 上海新炬网络信息技术有限公司 | 一种分布式hadoop集群故障自动诊断修复系统 |
CN107491375A (zh) * | 2017-08-18 | 2017-12-19 | 国网山东省电力公司信息通信公司 | 一种云计算环境下的设备检测及故障预警系统及方法 |
CN107612756A (zh) * | 2017-10-31 | 2018-01-19 | 广西宜州市联森网络科技有限公司 | 一种具有智能故障分析处理功能的运维管理系统 |
CN110162279A (zh) * | 2019-05-21 | 2019-08-23 | 欧冶云商股份有限公司 | 一种打印系统及处理方法 |
CN110430071A (zh) * | 2019-07-19 | 2019-11-08 | 云南电网有限责任公司信息中心 | 业务节点故障自愈方法、装置、计算机设备及存储介质 |
CN111181767A (zh) * | 2019-12-10 | 2020-05-19 | 中国航空工业集团公司成都飞机设计研究所 | 一种面向复杂系统的监控和故障自愈系统及其方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114765571A (zh) * | 2021-01-14 | 2022-07-19 | 中国石油天然气股份有限公司 | 数据中心运维的管理方法、装置和电子设备 |
CN112799909A (zh) * | 2021-01-26 | 2021-05-14 | 上海瀚银信息技术有限公司 | 一种服务器自动化管理系统及方法 |
WO2022247675A1 (zh) * | 2021-05-24 | 2022-12-01 | 中兴通讯股份有限公司 | 设备运维方法、网络设备及存储介质 |
CN113326953A (zh) * | 2021-06-17 | 2021-08-31 | 万国数据服务有限公司 | 一种电源设备智能监控控制方法及系统 |
CN113625672A (zh) * | 2021-08-11 | 2021-11-09 | 桐乡华锐自控技术装备有限公司 | 一种设备监控方法、装置及存储介质 |
CN114185290A (zh) * | 2021-12-02 | 2022-03-15 | 湖北电行科技有限公司 | 一种基于mas的多无人系统监督控制系统 |
CN114356615A (zh) * | 2021-12-07 | 2022-04-15 | 广州地铁集团有限公司 | 基于物联网轨道交通软件与应用故障自愈的解决方法 |
WO2023104219A1 (zh) * | 2021-12-07 | 2023-06-15 | 广州地铁集团有限公司 | 基于物联网轨道交通软件与应用故障自愈的解决方法 |
CN115314364A (zh) * | 2022-06-21 | 2022-11-08 | 华能南通燃机发电有限公司 | 环保数据传输实时监控报警系统 |
CN114973844A (zh) * | 2022-06-28 | 2022-08-30 | 中车青岛四方车辆研究所有限公司 | 一种轨道车辆网络显示屏操作仿真方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858176A (zh) | 一种远程监控故障自愈系统和方法 | |
US10545807B2 (en) | Method and system for acquiring parameter sets at a preset time interval and matching parameters to obtain a fault scenario type | |
US20040128583A1 (en) | Method and system for monitoring, diagnosing, and correcting system problems | |
US20140082423A1 (en) | Method and apparatus for cause analysis involving configuration changes | |
CN109614283B (zh) | 分布式数据库集群的监控系统 | |
CN103324565B (zh) | 日志监控方法 | |
CN103607297A (zh) | 一种计算机集群系统的故障处理方法 | |
CN102937930A (zh) | 应用程序监控系统及方法 | |
EP3591485B1 (en) | Method and device for monitoring for equipment failure | |
CN110851320A (zh) | 一种服务器宕机监管方法、系统、终端及存储介质 | |
CN105099783A (zh) | 一种实现业务系统告警应急处置自动化的方法及系统 | |
US11693731B2 (en) | System and methods for diagnosing and repairing a smart mobile device by disabling components | |
CN109901969B (zh) | 一种集中监控管理平台的设计方法及装置 | |
CN113553242A (zh) | 基于Zabbix的煤矿联网系统故障处置方法及系统 | |
WO2021139322A1 (zh) | 网络设备数据处理方法、装置、计算机设备和存储介质 | |
JP7436737B1 (ja) | マルチベンダーを支援するサーバ管理システム | |
EP2495660A1 (en) | Information processing device and method for controlling information processing device | |
CN113760634A (zh) | 一种数据处理方法和装置 | |
CN112131090B (zh) | 业务系统性能监控方法及装置、设备及介质 | |
KR101783201B1 (ko) | 서버 통합 관리 시스템 및 방법 | |
CN113342596A (zh) | 一种设备指标的分布式监控方法、系统及装置 | |
CN114244685A (zh) | 一种云服务中心访问异常处置系统 | |
CN113676356A (zh) | 报警信息处理方法、装置、电子设备及可读存储介质 | |
CN113656358A (zh) | 一种数据库日志文件处理方法及系统 | |
CN114428715A (zh) | 一种日志处理方法、装置、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201030 |