CN106936648A - 一种it系统的故障监控方法及系统 - Google Patents

一种it系统的故障监控方法及系统 Download PDF

Info

Publication number
CN106936648A
CN106936648A CN201710312697.XA CN201710312697A CN106936648A CN 106936648 A CN106936648 A CN 106936648A CN 201710312697 A CN201710312697 A CN 201710312697A CN 106936648 A CN106936648 A CN 106936648A
Authority
CN
China
Prior art keywords
monitoring
itss
failure
systems
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710312697.XA
Other languages
English (en)
Other versions
CN106936648B (zh
Inventor
宋正荣
王培鑫
王浩
屈洋洋
何书查
梁进中
朱杭烽
刘健森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Zhisheng System Integration Co Ltd
Original Assignee
Hefei Zhisheng System Integration Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Zhisheng System Integration Co Ltd filed Critical Hefei Zhisheng System Integration Co Ltd
Priority to CN201710312697.XA priority Critical patent/CN106936648B/zh
Publication of CN106936648A publication Critical patent/CN106936648A/zh
Application granted granted Critical
Publication of CN106936648B publication Critical patent/CN106936648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • H04L41/026Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using e-messaging for transporting management information, e.g. email, instant messaging or chat
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • H04L51/046Interoperability with other network applications or services

Abstract

本发明公开了一种IT系统的故障监控方法及系统,属于运维技术领域,方法包括:基于开源监控系统的报警功能,利用sql视图提取IT监控系统数据库中的告警信息,并将告警信息导入ITSS运维系统中;在ITSS运维系统中生成故障事件,并将故障事件分配给ITSS运维系统中已注册的运维工程师名下以及将故障事件对应的报警信息发送给微信平台;通过微信平台接收报警信息后,对故障事件进行处理;故障事件处理完成后,通过触发ITSS运维系统关闭故障事件并将故障解除信息发送至微信平台。本发明实现了IT监控系统和ITSS运维系统的联动,可实时将监控系统中的告警信息推送至ITSS运维系统中,以将故障事件指派给运维工程师处理。

Description

一种IT系统的故障监控方法及系统
技术领域
本发明涉及运维技术领域,特别涉及一种IT系统的故障监控方法及系统。
背景技术
随着云计算和互联网的高速发展,大量应用需要横跨不同的网络终端,并广泛接入第三方服务,如支付宝、导航等。因此,IT系统架构也越来越复杂,快速迭代的产品需求以及良好的用户体验都需要IT运维管理者蚀刻保障核心业务的稳定。
对于企业运维而言,不但关心单点IT资源的运行状态,更要关心整个业务系统的健康状态。如果企业使用了大量的API和模块化的应用,就必须要关注每个接口性能的变化情况和指标。对于企业的运维主管及企业的管理层来说,特别需要一种上墙的监控大屏。在运维过程中需要对运维工具数据进行分析,预知和快速的发现故障节点,减少业务中断带来的损失。
由于企业运维具有的以上特点,目前的监控系统虽层出不穷,但是仍不能满足企业运维的监控,具有如下缺陷:一是,没有实现和现有ITSS运维系统的对接、联动。二是,监控范围不全面,没有实现在服务器和网络设备上实现基础监控和上层业务监控,比如WEB、FTP、邮件系统、办公系统、数据库、负载均衡以及反向代理等。三是,页面展示效果不理想,现有的开源监控系统在页面展示形式单一。四是,目前的监控系统运维告警形式单一,容易产生报警风暴。五是,目前的监控系统无法实现自动化运维。
发明内容
本发明的目的在于提供一种IT系统的故障监控方法及系统,以实现和现有的ITSS运维系统的联动。
为实现以上目的,本发明第一方面,提供一种IT系统的故障监控方法,该方法包括:
基于开源监控系统的报警功能,利用sql视图提取IT监控系统数据库中的告警信息,并将告警信息导入ITSS运维系统中;
在ITSS运维系统中生成故障事件,并将故障事件分配给ITSS运维系统中已注册的运维工程师名下以及将故障事件对应的报警信息发送给微信平台;
通过微信平台接收报警信息后,对故障事件进行处理;
故障事件处理完成后,通过触发ITSS运维系统关闭故障事件并将故障解除信息发送至微信平台。
进一步地,该方法还包括:
利用硬件厂商提供的标准IPMI接口,提取硬件监控参数以对硬件进行监控;
利用SNMP标准协议,提取网络设备的基础监控参数以对网络设备进行基础监控;
利用JMX标准协议,提取tomcat、appache服务器的基础监控参数以对服务器进行监控。
进一步地,该方法还包括:
在ITSS运维系统中添加预监控的设备和上层应用,并确定监控内容;
根据监控内容,编写巡检报告的格式模板,并将模板整合到ITSS运维系统中;
在ITSS运维系统中设置定时任务以触发定时巡检任务,并利用巡检脚本进行巡检;
将巡检脚本巡检得到的数据放置到编写的格式模板中,生成巡检报告。
进一步地,所述的IT监控系统数据库zabbix监控系统、cacti监控系统以及solarwinds监控系统的数据库。
第二方面,提供一种IT系统的故障监控系统,该系统包括:IT监控系统、ITSS运维系统以及微信平台;
ITSS运维系统的输入端与IT监控系统的输出端连接、输出端与微信平台的输入端连接。
与现有技术相比,本发明存在以下技术效果:本发明通过对企业用的各种IT监控系统数据库中的告警信息,并将告警信息导入到ITSS运维系统中,由ITSS运维系统生成故障事件并控制故障事件的发起/关闭。实现了运维告警与ITSS运维系统的联动,实时将IT监控系统中的告警信息推送到ITSS运维系统中,产生故障事件并分配至运维工程师处理。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是本发明中一种IT系统的故障监控方法的流程示意图;
图2是本发明中实现自动化运维的过程示意图;
图3是本发明中一种IT系统的故障监控系统的结构示意图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种IT系统的故障监控方法,该方法包括如下步骤S1至S4:
S1、基于开源监控系统的报警功能,利用sql视图提取IT监控系统数据库中的告警信息,并将告警信息导入ITSS运维系统中;
S2、在ITSS运维系统中生成故障事件,并将故障事件分配给ITSS运维系统中已注册的运维工程师名下以及将故障事件对应的报警信息发送给微信平台;
S3、通过微信平台接收报警信息后,对故障事件进行处理;
S4、故障事件处理完成后,通过触发ITSS运维系统关闭故障事件并将故障解除信息发送至微信平台。
在实际应用过程中,运维工程师关注微信平台后即可接受报警事件,进入处理环节,运维工程师处理完成之后在ITSS运维系统中手动关闭故障事件,除法ITSS运维系统发送告警解除信息至微信平台。
进一步地,该方法还包括如下步骤:
利用硬件厂商提供的标准IPMI接口,提取硬件监控参数以对硬件进行监控,其中,硬件监控参数包括但不限于硬件的温度、电压、风扇工作状态以及电源状态等参数;
利用SNMP标准协议,提取网络设备的基础监控参数以对网络设备进行基础监控,其中,基础监控参数包括但不限于cpu、内存、磁盘以及网络流量等参数;
利用JMX标准协议,提取tomcat、appache服务器基础监控参数以对服务器进行监控,其中,服务器的基础监控参数包括但不限于会话数、线程状态、类状态以及堆内存等参数。
进一步地,本实施例的故障监控方法可以对上层应用进行监控,具体过程为:
(1)监控各上层应用所使用的服务端口的状态;
(2)在各上层应用的业务系统中安装插件进行监控。
需要说明的是,上层应用监控的参数包括WEB、FTP、邮件系统、OA、数据库、负载均衡、反向代理、tomcat、云平台等。本实施例中能全面检测服务器和网络设备的硬件监控、基础监控以及上层业务的监控,实现了监控范围全面化、多元化。
进一步地,如图2所示,该方法还包括如下步骤S01、:
S01、在ITSS运维系统中添加预监控的设备和上层应用,并确定监控内容,其中,监控内容具体为监控各种服务,比如HTTP服务,HTTPS服务,FTP服务,SSH服务,MYSQL服务,tomcat服务,smtp服务,pop服务等。
S02、根据监控内容,编写巡检报告的格式模板,并将模板整合到ITSS运维系统中;
S03、在ITSS运维系统中设置定时任务以触发定时巡检任务,并利用巡检脚本进行巡检;
S04、将巡检脚本巡检得到的数据放置到编写的格式模板中,生成巡检报告。
需要说明的是,本实施例中的定时巡检任务可设置为周、月、年的定时巡检,通过利用自动化运维开发语言python进行开发出巡检脚本,完成巡检工作。
进一步地,所述的IT监控系统数据库zabbix监控系统、cacti监控系统以及solarwinds监控系统的数据库中的至少一个。其中,多个IT监控系统监控的侧重点不一,发挥各监控系统的优势并将其进行性整合,避免每个监控系统单独开发的工作量以及管理。
如图3所示,本实施例公开了一种IT系统的故障监控系统,该系统包括:IT监控系统10、ITSS运维系统20以及微信平台30;
ITSS运维系统20的输入端与IT监控系统10的输出端连接、输出端与微信平台30的输入端连接。
需要说明的是,本实施例中使用PHP、JSP等开发语言对故障监控系统的展示界面进行优化,是的故障监控系统的展示界面美观、简约。其中,对界面展示进行优化的过程为:掌握现有开源监控系统zabbix、cacti等页面展示的代码;对页面展示的图表数据的样式进行重新设计;页面开发人员对zabbix、cacti监控系统的前端代码进行优化和改写。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种IT系统的故障监控方法,其特征在于,包括:
基于开源监控系统的报警功能,利用sql视图提取IT监控系统数据库中的告警信息,并将告警信息导入ITSS运维系统中;
在ITSS运维系统中生成故障事件,并将故障事件分配给ITSS运维系统中已注册的运维工程师名下以及将故障事件对应的报警信息发送给微信平台;
通过微信平台接收报警信息后,对故障事件进行处理;
故障事件处理完成后,通过触发ITSS运维系统关闭故障事件并将故障解除信息发送至微信平台。
2.如权利要求1所述的方法,其特征在于,还包括:
利用硬件厂商提供的标准IPMI接口,提取硬件监控参数以对硬件进行监控;
利用SNMP标准协议,提取网络设备的基础监控参数以对网络设备进行基础监控;
利用JMX标准协议,提取tomcat、appache服务器的基础监控参数以对服务器进行监控。
3.如权利要求1所述的方法,其特征在于,还包括:
在ITSS运维系统中添加预监控的设备和上层应用,并确定监控内容;
根据监控内容,编写巡检报告的格式模板,并将模板整合到ITSS运维系统中;
在ITSS运维系统中设置定时任务以触发定时巡检任务,并利用巡检脚本进行巡检;
将巡检脚本巡检得到的数据放置到编写的格式模板中,生成巡检报告。
4.如权利要求1所述的方法,其特征在于,所述的IT监控系统数据库zabbix监控系统、cacti监控系统以及solarwinds监控系统的数据库中的至少一个。
5.一种IT系统的故障监控系统,其特征在于,包括:IT监控系统(10)、ITSS运维系统(20)以及微信平台(30);
ITSS运维系统(20)的输入端与IT监控系统(10)的输出端连接、输出端与微信平台(30)的输入端连接。
CN201710312697.XA 2017-05-05 2017-05-05 一种it系统的故障监控方法及系统 Active CN106936648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710312697.XA CN106936648B (zh) 2017-05-05 2017-05-05 一种it系统的故障监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710312697.XA CN106936648B (zh) 2017-05-05 2017-05-05 一种it系统的故障监控方法及系统

Publications (2)

Publication Number Publication Date
CN106936648A true CN106936648A (zh) 2017-07-07
CN106936648B CN106936648B (zh) 2020-08-28

Family

ID=59429448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710312697.XA Active CN106936648B (zh) 2017-05-05 2017-05-05 一种it系统的故障监控方法及系统

Country Status (1)

Country Link
CN (1) CN106936648B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107995023A (zh) * 2017-10-31 2018-05-04 平安科技(深圳)有限公司 电子装置、微信报警方法和计算机可读存储介质
CN108847953A (zh) * 2018-04-25 2018-11-20 合肥智圣新创信息技术有限公司 一种运维服务系统及方法
CN109901889A (zh) * 2019-02-25 2019-06-18 快乐购有限责任公司 基于j2ee平台的支撑业务系统运维的全链路监控方法
CN110221947A (zh) * 2019-04-16 2019-09-10 中国平安人寿保险股份有限公司 告警信息巡检方法、系统、计算机装置及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582812A (zh) * 2008-05-13 2009-11-18 新奥特(北京)视频技术有限公司 一种监控运维管理系统
US20120245745A1 (en) * 2010-12-17 2012-09-27 Greenvolts, Inc. User interface for a mobile computing device
CN104022904A (zh) * 2014-06-13 2014-09-03 中国民航信息网络股份有限公司 分布式机房it设备统一管理平台
CN106130816A (zh) * 2016-06-24 2016-11-16 腾讯科技(深圳)有限公司 一种内容分发网络监控方法、监控服务器及系统
CN106301912A (zh) * 2016-08-15 2017-01-04 上海新炬网络技术有限公司 基于phthon构建桌面版C/S自动化运维平台的方法
CN106487585A (zh) * 2016-10-09 2017-03-08 深圳市思博创科技有限公司 设备综合监控系统架构

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582812A (zh) * 2008-05-13 2009-11-18 新奥特(北京)视频技术有限公司 一种监控运维管理系统
US20120245745A1 (en) * 2010-12-17 2012-09-27 Greenvolts, Inc. User interface for a mobile computing device
CN104022904A (zh) * 2014-06-13 2014-09-03 中国民航信息网络股份有限公司 分布式机房it设备统一管理平台
CN106130816A (zh) * 2016-06-24 2016-11-16 腾讯科技(深圳)有限公司 一种内容分发网络监控方法、监控服务器及系统
CN106301912A (zh) * 2016-08-15 2017-01-04 上海新炬网络技术有限公司 基于phthon构建桌面版C/S自动化运维平台的方法
CN106487585A (zh) * 2016-10-09 2017-03-08 深圳市思博创科技有限公司 设备综合监控系统架构

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107995023A (zh) * 2017-10-31 2018-05-04 平安科技(深圳)有限公司 电子装置、微信报警方法和计算机可读存储介质
CN108847953A (zh) * 2018-04-25 2018-11-20 合肥智圣新创信息技术有限公司 一种运维服务系统及方法
CN109901889A (zh) * 2019-02-25 2019-06-18 快乐购有限责任公司 基于j2ee平台的支撑业务系统运维的全链路监控方法
CN110221947A (zh) * 2019-04-16 2019-09-10 中国平安人寿保险股份有限公司 告警信息巡检方法、系统、计算机装置及可读存储介质

Also Published As

Publication number Publication date
CN106936648B (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
US11902318B2 (en) Network visualization, intrusion detection, and network healing
EP3072260B1 (en) Methods, systems, and computer readable media for a network function virtualization information concentrator
US8499204B2 (en) Method and apparatus for maintaining the status of objects in computer networks using virtual state machines
US9413597B2 (en) Method and system for providing aggregated network alarms
US7289988B2 (en) Method and system for managing events
CN106936648A (zh) 一种it系统的故障监控方法及系统
CN108989136B (zh) 业务端到端性能监控方法及装置
CN103295155B (zh) 证券核心业务系统监控方法
CN111176879A (zh) 设备的故障修复方法及装置
CN106055608A (zh) 自动采集和分析交换机日志的方法和装置
CN107659453A (zh) 通过zabbix监控大量TCP服务端口的方法
CN107704387A (zh) 用于系统预警的方法、装置、电子设备及计算机可读介质
CN114244676A (zh) 一种智能it综合网关系统
CN102387044A (zh) 一种对通信网络进行测试方法
Ye et al. Statistical process control for computer intrusion detection
CN107168844B (zh) 一种性能监控的方法及装置
CN112350854A (zh) 一种流量故障定位方法、装置、设备及存储介质
Safrianti et al. Real-time network device monitoring system with simple network management protocol (snmp) model
CN108694420A (zh) 一种水厂巡检系统及方法
CN113656252A (zh) 故障定位方法、装置、电子设备以及存储介质
CN105117347A (zh) 测试数据的模拟方法、系统及自动化测试方法、系统
CN205647545U (zh) 智能网络运维管理系统
CN115102730B (zh) 多种设备的一体化监控方法、装置及电子设备
US10338544B2 (en) Communication configuration analysis in process control systems
CN106656398B (zh) 一种时钟同步监管方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 230088 Room 501, E1 501, Huayi Science Park, 71 Tianda Road, hi tech Zone, Anhui.

Applicant after: Hefei Zhisheng new information technology Co. Ltd.

Address before: 230088 Room 501, E1 501, Huayi Science Park, 71 Tianda Road, hi tech Zone, Anhui.

Applicant before: Hefei Zhisheng system integration Co. Ltd.

GR01 Patent grant
GR01 Patent grant