CN113553242A - 基于Zabbix的煤矿联网系统故障处置方法及系统 - Google Patents
基于Zabbix的煤矿联网系统故障处置方法及系统 Download PDFInfo
- Publication number
- CN113553242A CN113553242A CN202110936385.2A CN202110936385A CN113553242A CN 113553242 A CN113553242 A CN 113553242A CN 202110936385 A CN202110936385 A CN 202110936385A CN 113553242 A CN113553242 A CN 113553242A
- Authority
- CN
- China
- Prior art keywords
- fault
- handling
- monitoring
- information
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003245 coal Substances 0.000 title claims abstract description 44
- 230000006855 networking Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000012544 monitoring process Methods 0.000 claims abstract description 95
- 230000008439 repair process Effects 0.000 claims abstract description 30
- 238000007619 statistical method Methods 0.000 claims abstract description 14
- 238000013515 script Methods 0.000 claims description 31
- 238000012423 maintenance Methods 0.000 claims description 26
- 230000006378 damage Effects 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 239000003795 chemical substances by application Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000001960 triggered effect Effects 0.000 claims description 4
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 claims description 3
- 208000027418 Wounds and injury Diseases 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 208000014674 injury Diseases 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013024 troubleshooting Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005067 remediation Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及一种基于Zabbix的煤矿联网系统故障处置方法及系统,属于信息化领域。该系统包括监测数据采集、故障判识、故障处置、故障修复作业库和统计分析模块;监测数据采集模块通过ZabbixAgent、SSH和SNMP采集煤矿联网系统中服务器和网络设备的硬件设备运行状态、应用程序运行状态、硬件设备资源消耗监测数据和应用程序资源消耗监测数据;故障判识模块根据定义的故障等级描述,通过Zabbix Server对采集的监测数据进行识别并对故障信息标记;本发明能够自动化的对各类故障进行识别和自主修复故障,并根据处置结果上报告警,具有自动化程度高、实时性强、故障处置效率高的优点。
Description
技术领域
本发明属于信息化领域,涉及基于Zabbix的煤矿联网系统故障处置方法及系统。
背景技术
联网系统的软硬件较多,由此引起的故障种类复杂,在发生故障时需要及时处理,避免影响煤矿的正常生产经营。但因煤矿信息化专业运维人员缺乏、运维水平较低,运维工作仍停留在异常发生后补救处理阶段,运维工作繁琐而低效,运维质量难以提高,严重影响着业务系统的稳定运行。煤矿联网系统主要由服务器、网络及安全设备、应用程序等软硬件设备组成,系统软硬件故障发生后,故障处置依赖人工排查处理,对于一些简单和重复性的运维工作,缺少自动化的故障处置工具和措施。
为此,本发明提出一种基于Zabbix的煤矿监管联网系统故障自动判识及处置方法和系统。通过设计的故障判识和处置方法,对Zabbix采集到的煤矿联网系统软硬件设备运行状态进行判断和故障响应,减少系统故障运维时间、快速恢复系统正常状态。
发明内容
有鉴于此,本发明的目的在于提供基于Zabbix的煤矿联网系统故障处置方法及系统。
为达到上述目的,本发明提供如下技术方案:
基于Zabbix的煤矿联网系统故障处置方法及系统,该方法包括以下步骤:
S1:针对煤矿联网系统所依赖的上位机、数据库服务器和应用系统服务器,根据服务器操作系统类型配置Windows和Linux两类监测模版,将服务器的CPU、内存、硬盘和网卡硬件的监测项添加到监测模版中;
S2:为每种煤矿联网系统建立一个主机组,主机组包括煤矿联网系统所依赖的所有服务器,服务器以IP地址名作为唯一标识;为服务器选择监测模版,同时将服务器被监测的数据库、中间件、应用程序的各监测项添加到该服务器的监测应用中;
S3:根据设置的监测信息五类故障等级,为每台服务器监测应用的监测项设置故障触发条件,为每种故障分配故障处置脚本命令,将故障修复作业库中查询得到的该类故障处置脚本进行组合,设置执行顺序和执行间隔;
S4:配置监测项的故障触发时的告警方式,默认为邮件告警方式,高级别故障可配置为短信告警方式;
S5:管理故障修复作业库,收集各类故障对应的处置措施,形成Shell、Python或Bat格式的脚本,指明对应的故障所属应用程序或硬件、所属操作系统、故障原因或故障描述,将故障处置措施录入到故障修复作业库中。
基于所述方法的基于Zabbix的煤矿系统故障判识及处置系统,包括监测数据采集模块、故障判识模块、故障处置模块、故障修复作业库和统计分析模块;
监测数据采集模块通过Zabbix Agent、SSH和SNMP采集煤矿联网系统中服务器和网络设备的硬件设备运行状态、应用程序运行状态、硬件设备资源消耗监测数据和应用程序资源消耗监测数据;
故障判识模块根据定义的故障等级描述,通过Zabbix Server对采集的监测数据进行识别并对故障信息标记;
故障处置模块提取故障所属系统或硬件、故障类型和故障信息,从故障修复作业库中检索得到故障修复作业命令,根据故障信息组合得到故障处置方案,远程控制故障端设备执行故障处置方案,并根据反馈结果解除故障或上报人工处理;
故障修复作业库对运维人员定义的服务器硬件、系统中间件、数据库、业务程序的故障处置的脚本命令进行管理;
统计分析模块用于故障处置记录的查询和统计分析。
可选的,所述监测数据采集模块通过Zabbix Server配置的监测应用,控制ZabbixAgent组件或通过SSH、IMPI和SNMP的方式获取被监测设备的硬件设备,以及应用程序的监测指标数据;
设立Windows和Linux两类操作系统Zabbix监控模版,根据煤矿联网系统服务器类型,以及该服务器安装的数据库、中间件或应用程序,配置对应的监测应用,监测CPU、内存、硬盘、网卡的关键硬件设备的运行状态和资源消耗情况,以及系统中间件、数据库、应用程序等进程状态、端口连通性、系统资源占用、http/https连接状态和异常日志记录信息。
可选的,所述故障判识模块对采集模块得到的原始监测数据进行存档,并进行故障类型和等级识别;为对各种联网系统的不同表示形式的异常信息进行有效判断,对接收到的故障信息分为软件故障和硬件故障两类,并对故障等级进行统一规范,按故障造成的损害程度及需投入运维资源多寡将监测信息的故障等级划分为五级:一级为灾难故障、二级为严重故障、三级为一般故障、四级为警告信息和五级为一般信息;
故障判识模块根据Zabbix Web端设置的监测应用中故障触发条件,对监测信息进行过滤,将符合故障条件的监测数据进行故障状态标识,存储到MySQL数据库中。
可选的,所述一级为灾难故障,为造成人员伤害或财产损失的故障;二级为严重故障,为系统服务终止、重要设备损坏的故障;三级为一般故障,为设备异常或系统功能缺失的故障;四级为警告信息,为可能对系统造成损坏的异常事件、故障未发生前的预警信息的故障;五级为一般信息,为系统运行状态或重要日志记录。
可选的,所述故障处置模块根据故障信息,检索是否存在配置的故障修复方案;当存在该等级故障对应的处置方案时,激活故障修复命令并下发脚本至Agent端执行,或者通过SNMP、IPMI、SSH等命令远程执行故障修复脚本;
故障修复脚本中命令进行重启服务器、释放CPU、内存资源、清理磁盘空间、重启应用程序、数据库备份或清理数据表,解除故障;
当不存在故障对应的修复方案时,则根据配置的告警方式进行故障告警;同时发送故障信息到煤矿信息系统故障自动处置系统中故障接收接口,系统提取故障所属应用程序名称及版本、硬件名称及型号、操作系统名称及版本、故障描述信息,从故障修复作业库中检索得到故障修复作业命令推送给运维人员进行审核,运维人员根据故障信息对故障处置命令进行组合,设置执行顺序和执行间隔,得到故障处置方案并提交,系统通过远程命令执行故障处置方案,并得到执行结果,当执行失败时进行告警。
可选的,所述故障修复作业库用于运维人员对各类故障处置和系统维护脚本命令进行在线管理,人员新增、修改、删除故障处置脚本;故障处置脚本存储在MySQL数据库中,
可选的,所述统计分析模块用于故障处置记录的查询查看功能,包括ZabbixServer故障处置命令执行记录和煤矿信息系统故障自动处置系统中故障处置记录,以及故障处置记录的统计报表和故障处置成功率、故障恢复时长的统计分析信息。
本发明的有益效果在于:本发明相对于传统的煤矿联网系统系统故障发生后人工排查判识故障信息,手动处置恢复故障的方式,能够自动化的对各类故障进行识别和自主修复故障,并根据处置结果上报告警,具有自动化程度高、实时性强、故障处置效率高的优点。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
Zabbix是开源的分布式网络监控解决方案,能够对众多网络服务、服务器、应用系统的健康情况、运行状态进行可靠的监测,以灵活可配置的告警手段进行故障预警。Zabbix基于Server-Client架构,主要由Server端和Agent端构成,其中Agent部署在监控目标上,主要用来监控软硬件资源消耗和运行状态,以主动或被动方式与Server端通信,发送监测信息、接收控制命令。Server端主要用来管理监测应用,通过对Agent以及SSH(安全壳协议)、SNMP(简单网络管理协议)、IMPI(智能平台管理接口)等网络协议得到的监测信息进行分析处理后,触发故障生成条件,发送告警信息,同时可通过远程命令处理故障。
如图1所示,为一种基于Zabbix的煤矿监管联网系统故障自动判识及处置方法和系统包括监测数据采集模块、故障判识模块、故障处置模块、故障修复作业库,以及统计分析模块。监测数据采集模块主要通过Zabbix Agent、SSH、SNMP等组件或协议采集煤矿联网系统所包括的服务器、网络设备的主要硬件设备及应用程序的运行状态和资源消耗监测数据;故障判识模块根据定义的故障等级描述,通过Zabbix Server对采集的监测数据进行识别并对故障信息标记;故障处置模块提取故障所属系统或硬件、故障类型、故障信息,从故障修复作业库中检索得到故障修复作业命令,根据故障信息组合得到故障处置方案,远程控制故障端设备执行故障处置方案,并根据反馈结果解除故障或上报人工处理。故障修复作业库对运维人员定义的服务器硬件、系统中间件、数据库、业务程序的各类故障处置的脚本命令进行管理。统计分析模块用于故障处置记录的查询和统计分析。
(1)监测数据采集模块
监测数据采集模块通过Zabbix Server配置的各类监测应用,控制ZabbixAgent组件或通过SSH、IMPI、SNMP等方式获取被监测设备的主要硬件、应用程序的监测指标数据。
设立Windows和Linux两类操作系统Zabbix监控模版,根据煤矿联网系统服务器类型,以及该服务器安装的数据库、中间件或应用程序,配置对应的监测应用,监测CPU、内存、硬盘、网卡等关键硬件设备的运行状态和资源消耗情况,以及系统中间件、数据库、应用程序等进程状态、端口连通性、系统资源占用、http/https连接状态、异常日志记录等信息。
(2)故障判识模块
故障判识模块Zabbix Server对采集模块得到的原始监测数据进行存档,并进行故障类型和等级识别。为对各种联网系统的不同表示形式的异常信息进行有效判断,对接收到的故障信息分为软件故障和硬件故障两类,并对故障等级进行统一规范,按故障造成的损害程度及需投入运维资源多寡将监测信息的故障等级划分为五级:一级为灾难故障(造成人员伤害、财产损失);二级为严重故障(系统服务终止、重要设备损坏);三级为一般故障(一般设备异常或系统功能缺失);四级为警告信息(可能对系统造成损坏的异常事件、故障未发生前的预警信息);五级为一般信息(系统运行状态、重要日志记录)。
故障判识模块根据Zabbix Web端设置的监测应用中故障触发条件,对监测信息进行过滤,将符合故障条件的监测数据进行故障状态标识,存储到MySQL数据库中。
(3)故障处置模块
Zabbix Server中故障触发器根据故障信息,检索是否存在配置的故障修复方案。当存在该等级故障对应的处置方案时,激活故障修复命令并下发脚本至Agent端执行,或者通过SNMP、IPMI、SSH等命令远程执行故障修复脚本。故障修复脚本中命令可进行重启服务器、释放CPU、内存资源、清理磁盘空间、重启应用程序、数据库备份或清理数据表等操作,快速解除故障。当不存在故障对应的修复方案时,则根据配置的告警方式进行故障告警;同时发送故障信息到煤矿信息系统故障自动处置系统中故障接收接口,系统提取故障所属应用程序名称及版本、硬件名称及型号、操作系统名称及版本、故障描述信息,从故障修复作业库中检索得到故障修复作业命令推送给运维人员进行审核,运维人员根据故障信息对故障处置命令进行组合,设置执行顺序和执行间隔,得到故障处置方案并提交,系统通过远程命令执行故障处置方案,并得到执行结果,当执行失败时进行告警。
(4)故障修复作业库
故障修复作业库模块主要应用于运维人员对各类故障处置和系统维护脚本命令进行在线管理,运维人员可新增、修改、删除故障处置脚本。故障处置脚本存储在MySQL数据库中,数据表如表1所示。
表1故障处置脚本数据表属性
(5)统计分析
统计分析模块主要应用于故障处置记录的查询查看功能,包括Zabbix Server故障处置命令执行记录和煤矿信息系统故障自动处置系统中故障处置记录,以及故障处置记录的统计报表和故障处置成功率、故障恢复时长等统计分析信息。
本发明的方法主要流程主要包括:
1)针对煤矿联网系统所依赖的上位机、数据库服务器、应用系统服务器,根据服务器操作系统类型配置Windows和Linux两类监测模版,将服务器的CPU、内存、硬盘、网卡等重要硬件的监测项添加到监测模版中。
2)为每种煤矿联网系统建立一个主机组,主机组包括煤矿联网系统所依赖的所有服务器,服务器以IP地址名作为唯一标识。为服务器选择监测模版,同时将服务器被监测的数据库、中间件、应用程序的各监测项添加到该服务器的监测应用中。
3)根据设置的监测信息五类故障等级,为每台服务器监测应用的监测项设置故障触发条件,为每种故障分配故障处置脚本命令,将故障修复作业库中查询得到的该类故障处置脚本进行组合,设置执行顺序和执行间隔。
4)配置监测项的故障触发时的告警方式,默认为邮件告警方式,高级别故障可配置为短信告警方式。
5)管理故障修复作业库,收集各类故障对应的处置措施,形成Shell、Python或Bat格式的脚本,指明对应的故障所属应用程序或硬件、所属操作系统、故障原因或故障描述,将故障处置措施录入到故障修复作业库中。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.基于Zabbix的煤矿联网系统故障处置方法及系统,其特征在于:该方法包括以下步骤:
S1:针对煤矿联网系统所依赖的上位机、数据库服务器和应用系统服务器,根据服务器操作系统类型配置Windows和Linux两类监测模版,将服务器的CPU、内存、硬盘和网卡硬件的监测项添加到监测模版中;
S2:为每种煤矿联网系统建立一个主机组,主机组包括煤矿联网系统所依赖的所有服务器,服务器以IP地址名作为唯一标识;为服务器选择监测模版,同时将服务器被监测的数据库、中间件、应用程序的各监测项添加到该服务器的监测应用中;
S3:根据设置的监测信息五类故障等级,为每台服务器监测应用的监测项设置故障触发条件,为每种故障分配故障处置脚本命令,将故障修复作业库中查询得到的该类故障处置脚本进行组合,设置执行顺序和执行间隔;
S4:配置监测项的故障触发时的告警方式,默认为邮件告警方式,高级别故障可配置为短信告警方式;
S5:管理故障修复作业库,收集各类故障对应的处置措施,形成Shell、Python或Bat格式的脚本,指明对应的故障所属应用程序或硬件、所属操作系统、故障原因或故障描述,将故障处置措施录入到故障修复作业库中。
2.基于权利要求1所述方法的基于Zabbix的煤矿系统故障判识及处置系统,其特征在于:该系统包括监测数据采集模块、故障判识模块、故障处置模块、故障修复作业库和统计分析模块;
监测数据采集模块通过ZabbixAgent、SSH和SNMP采集煤矿联网系统中服务器和网络设备的硬件设备运行状态、应用程序运行状态、硬件设备资源消耗监测数据和应用程序资源消耗监测数据;
故障判识模块根据定义的故障等级描述,通过Zabbix Server对采集的监测数据进行识别并对故障信息标记;
故障处置模块提取故障所属系统或硬件、故障类型和故障信息,从故障修复作业库中检索得到故障修复作业命令,根据故障信息组合得到故障处置方案,远程控制故障端设备执行故障处置方案,并根据反馈结果解除故障或上报人工处理;
故障修复作业库对运维人员定义的服务器硬件、系统中间件、数据库、业务程序的故障处置的脚本命令进行管理;
统计分析模块用于故障处置记录的查询和统计分析。
3.根据权利要求2所述的基于Zabbix的煤矿系统故障判识及处置系统,其特征在于:所述监测数据采集模块通过Zabbix Server配置的监测应用,控制Zabbix Agent组件或通过SSH、IMPI和SNMP的方式获取被监测设备的硬件设备,以及应用程序的监测指标数据;
设立Windows和Linux两类操作系统Zabbix监控模版,根据煤矿联网系统服务器类型,以及该服务器安装的数据库、中间件或应用程序,配置对应的监测应用,监测CPU、内存、硬盘、网卡的关键硬件设备的运行状态和资源消耗情况,以及系统中间件、数据库、应用程序等进程状态、端口连通性、系统资源占用、http/https连接状态和异常日志记录信息。
4.根据权利要求3所述的基于Zabbix的煤矿系统故障判识及处置系统,其特征在于:所述故障判识模块对采集模块得到的原始监测数据进行存档,并进行故障类型和等级识别;为对各种联网系统的不同表示形式的异常信息进行有效判断,对接收到的故障信息分为软件故障和硬件故障两类,并对故障等级进行统一规范,按故障造成的损害程度及需投入运维资源多寡将监测信息的故障等级划分为五级:一级为灾难故障、二级为严重故障、三级为一般故障、四级为警告信息和五级为一般信息;
故障判识模块根据Zabbix Web端设置的监测应用中故障触发条件,对监测信息进行过滤,将符合故障条件的监测数据进行故障状态标识,存储到MySQL数据库中。
5.根据权利要求4所述的基于Zabbix的煤矿系统故障判识及处置系统,其特征在于:所述一级为灾难故障,为造成人员伤害或财产损失的故障;二级为严重故障,为系统服务终止、重要设备损坏的故障;三级为一般故障,为设备异常或系统功能缺失的故障;四级为警告信息,为可能对系统造成损坏的异常事件、故障未发生前的预警信息的故障;五级为一般信息,为系统运行状态或重要日志记录。
6.根据权利要求5所述的基于Zabbix的煤矿系统故障判识及处置系统,其特征在于:所述故障处置模块根据故障信息,检索是否存在配置的故障修复方案;当存在该等级故障对应的处置方案时,激活故障修复命令并下发脚本至Agent端执行,或者通过SNMP、IPMI、SSH等命令远程执行故障修复脚本;
故障修复脚本中命令进行重启服务器、释放CPU、内存资源、清理磁盘空间、重启应用程序、数据库备份或清理数据表,解除故障;
当不存在故障对应的修复方案时,则根据配置的告警方式进行故障告警;同时发送故障信息到煤矿信息系统故障自动处置系统中故障接收接口,系统提取故障所属应用程序名称及版本、硬件名称及型号、操作系统名称及版本、故障描述信息,从故障修复作业库中检索得到故障修复作业命令推送给运维人员进行审核,运维人员根据故障信息对故障处置命令进行组合,设置执行顺序和执行间隔,得到故障处置方案并提交,系统通过远程命令执行故障处置方案,并得到执行结果,当执行失败时进行告警。
7.根据权利要求6所述的基于Zabbix的煤矿系统故障判识及处置系统,其特征在于:所述故障修复作业库用于运维人员对各类故障处置和系统维护脚本命令进行在线管理,人员新增、修改、删除故障处置脚本;故障处置脚本存储在MySQL数据库中。
8.根据权利要求7所述的基于Zabbix的煤矿系统故障判识及处置系统,其特征在于:所述统计分析模块用于故障处置记录的查询查看功能,包括Zabbix Server故障处置命令执行记录和煤矿信息系统故障自动处置系统中故障处置记录,以及故障处置记录的统计报表和故障处置成功率、故障恢复时长的统计分析信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110936385.2A CN113553242A (zh) | 2021-08-16 | 2021-08-16 | 基于Zabbix的煤矿联网系统故障处置方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110936385.2A CN113553242A (zh) | 2021-08-16 | 2021-08-16 | 基于Zabbix的煤矿联网系统故障处置方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113553242A true CN113553242A (zh) | 2021-10-26 |
Family
ID=78133854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110936385.2A Pending CN113553242A (zh) | 2021-08-16 | 2021-08-16 | 基于Zabbix的煤矿联网系统故障处置方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553242A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114356615A (zh) * | 2021-12-07 | 2022-04-15 | 广州地铁集团有限公司 | 基于物联网轨道交通软件与应用故障自愈的解决方法 |
CN115396248A (zh) * | 2022-08-31 | 2022-11-25 | 杭州程天科技发展有限公司 | 远程设备控制方法、装置、系统、电子装置和存储介质 |
CN115562900A (zh) * | 2022-12-06 | 2023-01-03 | 苏州浪潮智能科技有限公司 | Amd服务器系统安装断电处理方法、装置、设备及介质 |
CN116069540A (zh) * | 2023-02-24 | 2023-05-05 | 北京关键科技股份有限公司 | 一种系统软硬件部位运行状态的采集分析处理方法及装置 |
CN116560893A (zh) * | 2023-07-07 | 2023-08-08 | 湖南开放大学(湖南网络工程职业学院、湖南省干部教育培训网络学院) | 一种计算机应用程序运行数据故障处理系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150085695A1 (en) * | 2013-09-20 | 2015-03-26 | CoScale NV | Efficient Data Center Monitoring |
CN105323113A (zh) * | 2015-11-19 | 2016-02-10 | 国网江西省电力公司信息通信分公司 | 一种基于可视化技术的系统故障应急处置系统及方法 |
CN108092836A (zh) * | 2016-11-21 | 2018-05-29 | 深圳市蓝希领地科技有限公司 | 一种服务器的监控方法及装置 |
CN108710545A (zh) * | 2018-03-23 | 2018-10-26 | 上海精鲲计算机科技有限公司 | 一种远程监控故障自愈系统 |
CN109947616A (zh) * | 2019-02-11 | 2019-06-28 | 北京国电通网络技术有限公司 | 一种基于OpenStack技术的云操作系统的自动化监控运维系统 |
CN112395172A (zh) * | 2020-11-20 | 2021-02-23 | 城云科技(中国)有限公司 | 基于应用软件自动化监测数据的可视化展示方法 |
-
2021
- 2021-08-16 CN CN202110936385.2A patent/CN113553242A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150085695A1 (en) * | 2013-09-20 | 2015-03-26 | CoScale NV | Efficient Data Center Monitoring |
CN105323113A (zh) * | 2015-11-19 | 2016-02-10 | 国网江西省电力公司信息通信分公司 | 一种基于可视化技术的系统故障应急处置系统及方法 |
CN108092836A (zh) * | 2016-11-21 | 2018-05-29 | 深圳市蓝希领地科技有限公司 | 一种服务器的监控方法及装置 |
CN108710545A (zh) * | 2018-03-23 | 2018-10-26 | 上海精鲲计算机科技有限公司 | 一种远程监控故障自愈系统 |
CN109947616A (zh) * | 2019-02-11 | 2019-06-28 | 北京国电通网络技术有限公司 | 一种基于OpenStack技术的云操作系统的自动化监控运维系统 |
CN112395172A (zh) * | 2020-11-20 | 2021-02-23 | 城云科技(中国)有限公司 | 基于应用软件自动化监测数据的可视化展示方法 |
Non-Patent Citations (2)
Title |
---|
XY圆啊(作者笔名): "Zabbix监控Linux服务器和Windows服务器", CSDN网站, 网址:HTTP://T.CSDNIMG.CN/QTA19 * |
高洪波: "煤矿自动化运维监控平台的设计与应用", 《电脑知识与技术》, vol. 17, no. 13, pages 207 - 210 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114356615A (zh) * | 2021-12-07 | 2022-04-15 | 广州地铁集团有限公司 | 基于物联网轨道交通软件与应用故障自愈的解决方法 |
CN115396248A (zh) * | 2022-08-31 | 2022-11-25 | 杭州程天科技发展有限公司 | 远程设备控制方法、装置、系统、电子装置和存储介质 |
CN115396248B (zh) * | 2022-08-31 | 2024-03-15 | 杭州程天科技发展有限公司 | 远程设备控制方法、装置、系统、电子装置和存储介质 |
CN115562900A (zh) * | 2022-12-06 | 2023-01-03 | 苏州浪潮智能科技有限公司 | Amd服务器系统安装断电处理方法、装置、设备及介质 |
CN115562900B (zh) * | 2022-12-06 | 2023-03-14 | 苏州浪潮智能科技有限公司 | Amd服务器系统安装断电处理方法、装置、设备及介质 |
CN116069540A (zh) * | 2023-02-24 | 2023-05-05 | 北京关键科技股份有限公司 | 一种系统软硬件部位运行状态的采集分析处理方法及装置 |
CN116560893A (zh) * | 2023-07-07 | 2023-08-08 | 湖南开放大学(湖南网络工程职业学院、湖南省干部教育培训网络学院) | 一种计算机应用程序运行数据故障处理系统 |
CN116560893B (zh) * | 2023-07-07 | 2023-09-22 | 湖南开放大学(湖南网络工程职业学院、湖南省干部教育培训网络学院) | 一种计算机应用程序运行数据故障处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113553242A (zh) | 基于Zabbix的煤矿联网系统故障处置方法及系统 | |
CN107632918B (zh) | 计算存储设备的监控系统及方法 | |
CN111209131B (zh) | 一种基于机器学习确定异构系统的故障的方法和系统 | |
CN107995049B (zh) | 电力安全区跨区同步故障监测方法、装置和系统 | |
CN104699759B (zh) | 一种数据库自动化运行维护方法 | |
CN108199922B (zh) | 一种用于网络设备及服务器故障诊断和修复的系统和方法 | |
CN105323113B (zh) | 一种基于可视化技术的系统故障应急处置方法 | |
CN110716842B (zh) | 集群故障检测方法和装置 | |
WO2016188100A1 (zh) | 信息系统故障场景信息收集方法及系统 | |
CN111858176A (zh) | 一种远程监控故障自愈系统和方法 | |
CN102752624A (zh) | 电视机故障远程诊断的方法、电视机及系统 | |
US20080086295A1 (en) | Monitoring simulating device, method, and program | |
CN104574219A (zh) | 电网业务信息系统运行工况的监测预警方法及系统 | |
CN108763037A (zh) | 一种服务器监控管理方法及装置 | |
CN112529223A (zh) | 一种设备故障报修方法、装置、服务器及储存介质 | |
CN103152219B (zh) | 一种计算机网络系统的事件监控系统及事件监控方法 | |
WO2019244733A1 (ja) | オペレーション装置、および、オペレーション方法 | |
CN102841589A (zh) | 环境在线监测仪器远程智能维护系统 | |
CN110955551B (zh) | 一种基于tomcat中间件的故障智能诊断装置 | |
CN101677278A (zh) | 网络信息系统可用性的监控方法及系统 | |
CN111752741A (zh) | 一种系统性能检测的方法及装置 | |
CN114167181B (zh) | 监测本地和异地线路故障溯源的方法及系统 | |
US20220086034A1 (en) | Over the top networking monitoring system | |
JP4850733B2 (ja) | ヘルスチェック装置及びヘルスチェック方法及びプログラム | |
CN112131090B (zh) | 业务系统性能监控方法及装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |