CN115484147A - 一种支持多系统多指标的高可用监控方法 - Google Patents

一种支持多系统多指标的高可用监控方法 Download PDF

Info

Publication number
CN115484147A
CN115484147A CN202211044371.0A CN202211044371A CN115484147A CN 115484147 A CN115484147 A CN 115484147A CN 202211044371 A CN202211044371 A CN 202211044371A CN 115484147 A CN115484147 A CN 115484147A
Authority
CN
China
Prior art keywords
early warning
application
information
monitoring
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211044371.0A
Other languages
English (en)
Inventor
姜世杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Communication Information System Co Ltd
Original Assignee
Inspur Communication Information System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Communication Information System Co Ltd filed Critical Inspur Communication Information System Co Ltd
Priority to CN202211044371.0A priority Critical patent/CN115484147A/zh
Publication of CN115484147A publication Critical patent/CN115484147A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种支持多系统多指标的高可用监控方法,属于大数据平台系统监控技术领域,该方法的实现方式如下:通过jenkins启用定时调度;使用python语言集成对关系数据库访问及对非关系型数据库进行防问,以获取应用执行日志,及执行情况日志;通过连接主机插件应用,获取应用主机上的日志及文件系统使用情况,通过日增及剩余情况进行预警;通过外围接口push相应预警内容到对应主机,配置应用获取预警信息;预警数据分类及预警模板配置,通过对预警信息分类,组织形成相应的预警通知信息。本发明部署方便,配置简单,能够灵活且高可用的适配各种系统指标,最大限度的释放现场人力成本,使用运维人员可根据提醒及时响应。

Description

一种支持多系统多指标的高可用监控方法
技术领域
本发明涉及大数据平台系统监控技术领域,具体地说是一种支持多系统多指标的高可用监控方法。
背景技术
随着大数据平台的建设,数仓间存在外围接口提供及时性问题,而此问题会引发使用者对数据提供时间的关切。运维人员需要快速精准的获取各个系统异常情况,让问题及时发现并抢先客户发现前解决。
发明内容
本发明的技术任务是针对以上不足之处,提供一种支持多系统多指标的高可用监控方法,部署方便,配置简单,能够灵活且高可用的适配各种系统指标,最大限度的释放现场人力成本,使用运维人员可根据提醒及时响应。
本发明解决其技术问题所采用的技术方案是:
一种支持多系统多指标的高可用监控方法,该方法的实现方式如下:
1)、通过jenkins启用定时调度;
2)、使用python语言集成对关系数据库访问及对非关系型数据库进行防问,以获取应用执行日志,及执行情况日志;
3)、通过连接主机插件应用,获取应用主机上的日志及文件系统使用情况,通过日增及剩余情况进行预警;
4)、通过外围接口push相应预警内容到对应主机,配置应用获取预警信息;
5)、预警数据分类及预警模板配置,通过对预警信息分类,组织形成相应的预警通知信息;通过预警的级别对不同层级人员进行预警信息的推送;
6)、根据不同级别配置预警信息接收人员参数表;
在网元层级完成汇总后第一时间监控并反馈异常情况,通过通信框架发送预警通知信息。
该方法收集系统间交互或系统中存在的问题、及运行情况,通过邮件、短信、钉钉等通信软件完成系统异常情况问题的定时监控,减少维护方面人力,及时、快速的发现并通知系统运行状况,同时通过嵌入系统的应用插件,完成系统运行状况的收集,进行定期分析。
能够可靠的帮助现场负责人员快速精准的获取各个系统异常情况,让问题及时发现并抢先客户发现前解决,同时可以有效减少各个现场的人力投入。支持灵活配置现场负责人的信息,如手机号和邮箱地址等。
优选的,所述通过jenkins启用定时调度,支持多系统,包括win、linux;能够灵活的嵌入到各系统应用中,达到同时监控的效果;
该方法支持分布式部署数据收集,通过嵌入的数据收集插件,完成数据收集,通过集中的服务主机进行预警处理,应用支持主从部署。
优选的,所述关系数据库包括oracle、mysql数据库;所述非关系型数据库包括Redis、Hbase、MongoDB数据库。
优选的,所述主机插件包括paramiko、ftplib、sqlite3、关系数据库调用集成插件、邮件推送集成插件、短信插件等应用。
优选的,所述预警信息接收人员参数表形式如下:
SMSLIST={'Sale':['186XXXXXXXX','186XXXXXXXX','186XXXXXXXX'],'Operater':['186XXXXXXXX'],
'Manager':['186XXXXXXXX'],
'Customer':['186XXXXXXXX']
}。
实现配置中灵活配置负责人员的信息。
优选的,所述预警通知信息包括短信通知、邮件通知及钉钉等应用软件通知;
邮件类模板,通过html页面标签完成对邮件内容的装饰,通过不同格式的标签明了的反应邮件中突出关注的内容。
优选的,程序根据配置定期或者监控kafka消息的方式自动派单与执行,从而能够可靠的帮助现场负责人员快速精准的获取各个系统异常情况。
优选的,产生的相关日志与任务单等信息会通过时长配置实现自动清理,每天自动清理30天前历史任务单与日志信息,从而自动归档过期的任务单与日志信息。
本发明还要求保护一种支持多系统多指标的高可用监控装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行上述的支持多系统多指标的高可用监控方法。
本发明还要求保护计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述的支持多系统多指标的高可用监控方法。
本发明的一种支持多系统多指标的高可用监控方法与现有技术相比,具有以下有益效果:
该方法减少了人力运维成本、并及时定期对预警信息进行推送,由运维人员了解系统运维状况;
系统定时定期清理、对预警出的异常问题进行优化,减少的故障的发生;
部分系统数据交互情况可邮件分批推送客户,使用软件应用客户及时掌握各系统运行情况,方便系统间及不同厂商间的沟通;
对系统资源使用情况的监控,方便的主机系统运维,对分布式系统资源的动态分配提供的必要的数据支持。
附图说明
图1是本发明实施例提供的支持多系统多指标的高可用监控方法实现流程图;
图2是本发明实施例提供的支持多系统多指标的高可用监控方法中配置文件示例图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明实施例提供一种支持多系统多指标的高可用监控方法,该方法的实现方式如下:
1)、通过jenkins启用定时调度,支持win、linux等多系统;
2)、使用python语言集成对oracle、mysql等关系数据库访问及对Redis、Hbase、MongoDB等非关系型数据库进行防问,以获取应用执行日志,及执行情况日志;
3)、通过连接主机插件:paramiko、ftplib、sqlite3、关系数据库调用集成插件、邮件推送集成插件、短信插件等应用,获取应用主机上的日志及文件系统使用情况,通过日增及剩余情况进行预警;
4)、通过外围接口push相应预警内容到对应主机,配置应用获取预警信息;
5)、预警数据分类及预警模板配置,通过对预警信息分类,组织形成相应的预警短信信息、预警邮件信息;通过预警的级别对不同层级人员进行预警信息的推送;
6)、根据不同级别配置预警信息接收人员参数表:
SMSLIST={'Sale':['186XXXXXXXX','186XXXXXXXX','186XXXXXXXX'],'Operater':['186XXXXXXXX'],
'Manager':['186XXXXXXXX'],
'Customer':['186XXXXXXXX']
}。
邮件类模板,通过html页面标签完成对邮件内容的装饰,通过不同格式的标签明了的反应邮件中突出关注的内容。
本方法收集系统间交互或系统中存在的问题、及运行情况,通过邮件、短信、钉钉等通信软件完成系统异常情况问题的定时监控,减少维护方面人力,及时,快速的发现并通知系统运行状况,同时通过嵌入系统的应用插件,完成系统运行状况的收集,进行定期分析。
本方法是通过多渠道多指标部署简单的系统预警监控应用软件实现,为系统提供了一种简单配置就可直接使用的服务组件。技术上使用python与java语言实现,配置文件采用yml格式,整体项目采用akka与thrift等框架,支持邮件、短信、钉钉等方式发送预警。
该预警监控软件,不依赖任何业务应用,可独立使用,也可以方便的嵌入其他系统应用中使用,不影响原系统应用的功能。
通过预警监控软件的使用,能够周期性监控数据,替代人工完成系统周期性应用监测及时预警;
通过配置信息接收人的短信邮箱、钉钉号等,配置相应的预警接收级别,便可接收到预警发出的短信、钉钉及邮件信息;
该预警监控软件,可支持分布式部署数据收集,通过嵌入的数据收集插件,完成数据收集,通过集中的服务主机进行预警处理,应用支持主从部署;
产生的相关日志与任务单等信息会通过时长配置实现自动清理。
在网络畅通的情况下,可以方便的嵌入各应用系统。
通过支持多系统多指标的高可用监控软件实现本实施例所述的多系统数据监控的实现,能够可靠的帮助现场负责人员快速精精准获取各个系统异常情况,让问题及时发现并抢先客户发现前解决,同时可以有效减少各个现场的人力投入;能够灵活的嵌入到各系统应用中,达到同时监控的效果;支持灵活配置现场负责人的信息,如手机号和邮箱地址等;自动归档过期的任务单与日志信息。
软件支持分布式部署,可以应对突发性服务器停机等异常情况,不会影响服务的正常提供。
程序根据配置定期或者以监控kafka消息的方式自动派单与执行,实现快速精准性,且无需人工干预。
在网元层级完成汇总后就可以第一时间监控并反馈异常情况,通过通信框架发送短信与邮件,让问题及时发现并抢先客户发现前解决。
能够灵活的嵌入到各系统应用中,只需要在配置时根据格式配置好相关信息,可以打通系统之间的壁垒。
支持灵活配置现场负责人的信息,可以通过配置灵活配置负责人员的信息。
自动归档过期的任务单与日志信息,每天可以自动清理30天前历史任务单与日志信息。
该方法应用部署方便,配置简单,监控周期灵活配置,通知方式有短信、邮件、钉钉等,对不同预警分类分级发送,可及时通知不同级别负责人应用运行情况、数据缺失的异常情况。该监控应用可以灵活且高可用的适配各种系统指标,最大限度的释放现场人力成本,使用运维人员可根据提醒及时响应。
本发明实施例还提供了一种支持多系统多指标的高可用监控装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行上述实施例所述的支持多系统多指标的高可用监控方法。
本发明实施例还提供了一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行本发明上述实施例中所述的支持多系统多指标的高可用监控方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (10)

1.一种支持多系统多指标的高可用监控方法,其特征在于,该方法的实现方式如下:
1)、通过jenkins启用定时调度;
2)、使用python语言集成对关系数据库访问及对非关系型数据库进行防问,以获取应用执行日志,及执行情况日志;
3)、通过连接主机插件应用,获取应用主机上的日志及文件系统使用情况,通过日增及剩余情况进行预警;
4)、通过外围接口push相应预警内容到对应主机,配置应用获取预警信息;
5)、预警数据分类及预警模板配置,通过对预警信息分类,组织形成相应的预警通知信息;通过预警的级别对不同层级人员进行预警信息的推送;
6)、根据不同级别配置预警信息接收人员参数表;
在网元层级完成汇总后第一时间监控并反馈异常情况,通过通信框架发送预警通知信息。
2.根据权利要求1所述的一种支持多系统多指标的高可用监控方法,其特征在于,所述通过jenkins启用定时调度,支持多系统,包括win、linux;
该方法支持分布式部署数据收集,通过嵌入的数据收集插件,完成数据收集,通过集中的服务主机进行预警处理,应用支持主从部署。
3.根据权利要求2所述的一种支持多系统多指标的高可用监控方法,其特征在于,所述关系数据库包括oracle、mysql数据库;所述非关系型数据库包括Redis、Hbase、MongoDB数据库。
4.根据权利要求1或2或3所述的一种支持多系统多指标的高可用监控方法,其特征在于,所述主机插件包括paramiko、ftplib、sqlite3、关系数据库调用集成插件、邮件推送集成插件、短信插件应用。
5.根据权利要求4所述的一种支持多系统多指标的高可用监控方法,其特征在于,所述预警信息接收人员参数表形式如下:
SMSLIST={'Sale':['186XXXXXXXX','186XXXXXXXX','186XXXXXXXX'],'Operater':['186XXXXXXXX'],'Manager':['186XXXXXXXX'],'Customer':['186XXXXXXXX']}。
6.根据权利要求1所述的一种支持多系统多指标的高可用监控方法,其特征在于,所述预警通知信息包括短信、邮件及应用软件通知;
邮件类模板,通过html页面标签完成对邮件内容的装饰,通过不同格式的标签明了的反应邮件中突出关注的内容。
7.根据权利要求1所述的一种支持多系统多指标的高可用监控方法,其特征在于,程序根据配置定期或者监控kafka消息的方式自动派单与执行。
8.根据权利要求1或7所述的一种支持多系统多指标的高可用监控方法,其特征在于,每天自动清理30天前历史任务单与日志信息,从而自动归档过期的任务单与日志信息。
9.一种支持多系统多指标的高可用监控装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至8任一所述的方法。
10.计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至8任一所述的方法。
CN202211044371.0A 2022-08-30 2022-08-30 一种支持多系统多指标的高可用监控方法 Pending CN115484147A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211044371.0A CN115484147A (zh) 2022-08-30 2022-08-30 一种支持多系统多指标的高可用监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211044371.0A CN115484147A (zh) 2022-08-30 2022-08-30 一种支持多系统多指标的高可用监控方法

Publications (1)

Publication Number Publication Date
CN115484147A true CN115484147A (zh) 2022-12-16

Family

ID=84421759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211044371.0A Pending CN115484147A (zh) 2022-08-30 2022-08-30 一种支持多系统多指标的高可用监控方法

Country Status (1)

Country Link
CN (1) CN115484147A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140214891A1 (en) * 2013-01-28 2014-07-31 Hadronex, Inc. Hierarchical user interface and functional apparatus
CN105183609A (zh) * 2015-09-16 2015-12-23 焦点科技股份有限公司 一种应用于软件系统的实时监控系统及方法
CN107038847A (zh) * 2017-05-15 2017-08-11 天地(常州)自动化股份有限公司 一种井下分级报警方法、设备及系统
CN108833188A (zh) * 2018-07-17 2018-11-16 顺丰科技有限公司 一种报警信息管理方法、装置、设备及存储介质
CN109598434A (zh) * 2018-11-30 2019-04-09 平安科技(深圳)有限公司 异常预警方法、装置、计算机装置及存储介质
CN110262809A (zh) * 2019-05-29 2019-09-20 济南大学 基于持续集成和虚拟化容器的校园应用发布方法及系统
CN110995497A (zh) * 2019-12-16 2020-04-10 厦门市美亚柏科信息股份有限公司 一种云计算环境下统一运维的方法、终端设备及存储介质
CN112235135A (zh) * 2020-10-10 2021-01-15 浪潮天元通信信息系统有限公司 一种支持分布式部署的数据监控方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140214891A1 (en) * 2013-01-28 2014-07-31 Hadronex, Inc. Hierarchical user interface and functional apparatus
CN105183609A (zh) * 2015-09-16 2015-12-23 焦点科技股份有限公司 一种应用于软件系统的实时监控系统及方法
CN107038847A (zh) * 2017-05-15 2017-08-11 天地(常州)自动化股份有限公司 一种井下分级报警方法、设备及系统
CN108833188A (zh) * 2018-07-17 2018-11-16 顺丰科技有限公司 一种报警信息管理方法、装置、设备及存储介质
CN109598434A (zh) * 2018-11-30 2019-04-09 平安科技(深圳)有限公司 异常预警方法、装置、计算机装置及存储介质
CN110262809A (zh) * 2019-05-29 2019-09-20 济南大学 基于持续集成和虚拟化容器的校园应用发布方法及系统
CN110995497A (zh) * 2019-12-16 2020-04-10 厦门市美亚柏科信息股份有限公司 一种云计算环境下统一运维的方法、终端设备及存储介质
CN112235135A (zh) * 2020-10-10 2021-01-15 浪潮天元通信信息系统有限公司 一种支持分布式部署的数据监控方法及系统

Similar Documents

Publication Publication Date Title
CN107678907B (zh) 数据库业务逻辑监控方法、系统、及存储介质
CN111045806A (zh) 延迟消息队列实现方法以及系统
CN109871392B (zh) 一种分布式应用系统下的慢sql实时数据采集方法
CN111131368A (zh) 消息推送方法和装置
CN112199394A (zh) 告警信息推送方法、系统、智能终端及存储介质
CN111163340A (zh) 一种基于车联网的ivi系统远程log上报方法和装置
CN111786841A (zh) 一种光网络gpon设备自动操作方法、系统和装置
CN111459631A (zh) 服务器自动化批处理方法及系统
CN115484147A (zh) 一种支持多系统多指标的高可用监控方法
CN111240721B (zh) 一种高速铁路设备软件版本监控方法及系统
CN110580216B (zh) 一种应用提测的方法和装置
CN111967975A (zh) 业务问题处理系统及工作方法
CN114090305B (zh) 业务审核方法及装置
CN112596750B (zh) 应用测试方法、装置、电子设备及计算机可读存储介质
CN115238923A (zh) 一种设备管理系统
CN111353658B (zh) 电视节目生产监控系统和方法
CN114723397A (zh) 一种流程执行方法及装置
CN113487340A (zh) 业务解耦处理方法、装置、设备及存储介质
CN112231185A (zh) 基于应用系统告警信息的知识获取方法及装置
CN111212112A (zh) 信息处理方法和装置
CN113285855B (zh) 服务器监控方法及系统
US11799982B2 (en) Message push method, apparatus, device and medium
CN112052231B (zh) 回传记录的监控方法和监控装置
CN117785382A (zh) 基于k8s集群的资源监测与动态调度方法、设备及介质
CN114023429A (zh) 一种非侵入式的科研设备状态监控方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination