CN115277366A - 一种基于接口的sla告警系统 - Google Patents

一种基于接口的sla告警系统 Download PDF

Info

Publication number
CN115277366A
CN115277366A CN202210897300.9A CN202210897300A CN115277366A CN 115277366 A CN115277366 A CN 115277366A CN 202210897300 A CN202210897300 A CN 202210897300A CN 115277366 A CN115277366 A CN 115277366A
Authority
CN
China
Prior art keywords
module
interface
management module
error reporting
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210897300.9A
Other languages
English (en)
Inventor
方加亮
郑晨
夏瑞强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Health Magnesium Technology Co ltd
Original Assignee
Shanghai Health Magnesium Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Health Magnesium Technology Co ltd filed Critical Shanghai Health Magnesium Technology Co ltd
Priority to CN202210897300.9A priority Critical patent/CN115277366A/zh
Publication of CN115277366A publication Critical patent/CN115277366A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5019Ensuring fulfilment of SLA

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及接口告警系统技术领域,具体公开了一种基于接口的SLA告警系统,包括告警平台服务器、重试管理模块、策略管理模块、通知配置模块、信息交互模块、报错详情模块以及事故管理模块,所述告警平台服务器与重试管理模块、策略管理模块、通知配置模块、信息交互模块、报错详情模块、事故管理模块电性连接;所述告警平台服务器协调模块之间的信息交互,所述重试管理模块重新执行接口报错后以及修复后的逻辑,所述策略管理模块与通知配置模块相互配合将报错信息发送给管理员终端,所述信息交互模块与接口建立连接,接受接口的报错信息;所述报错详细模块展示接口报错的详细信息,所述事故管理模块对于报错内容添加内容进行文件说明。

Description

一种基于接口的SLA告警系统
技术领域
本发明涉及接口告警系统技术领域,具体为一种基于接口的SLA告警系统。
背景技术
后端服务间交互,尤以外部接口依赖而言,常有业务类型报错,需要人工介入处理;虽然已有自动发送邮件通知报错信息,但是公司尚处于被动方,纵观整体从“预测故障、发现故障、定位事故、故障恢复”流程可谓相当繁琐,并且尚未有机制监控,当前流程包含查询数据库日志表发现定位影响范围后,由需求分析人员通知合作方或我方Developer内部修复,进而再由开发人员转交运维人员进行任务调度重试,导致处理链路过长且影响C端、A端体验,甚至减低服务可用性指标。一些重要的接口,以及定时任务的执行,得等到自己去翻看日志或者用户反馈才能发现问题,延迟问题的处理时间。
发明内容
本发明的目的在于提供一种基于接口的SLA告警系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于接口的SLA告警系统,包括告警平台服务器、重试管理模块、策略管理模块、通知配置模块、信息交互模块、报错详情模块以及事故管理模块,所述告警平台服务器与重试管理模块、策略管理模块、通知配置模块、信息交互模块、报错详情模块、事故管理模块电性连接;所述告警平台服务器协调模块之间的信息交互,所述重试管理模块重新执行接口的逻辑,所述策略管理模块、通知配置模块相互配合将报错信息发送给管理员终端,所述信息交互模块与接口建立连接,所述报错详情模块展示接口报错的详细信息,所述事故管理模块对于报错内容添加内容进行文件说明。
优选的,所述重试管理模块在告警平台服务器接收接口报错后,重新按照报错的逻辑重复执行,以确认报错信息的准确性。
优选的,所述重试管理模块在告警平台服务器接收接口修复信息后,重新按照修复后的逻辑重复执行,以确认接口修复后的稳定性。
优选的,所述策略管理模块确定将报错信息发送至管理员终端的方式,具体的方式包括但不限于:邮箱通知、短息通知、软件通知。
优选的,所述通知配置模块配套策略管理模块使用,针对策略管理模块确定通知管理员终端的方式来配置相应的邮箱账号、电话号码、软件联系方式。
优选的,所述信息交互模块与接口建立稳定的数据通道,用于接口报错信息,并将报错信息转交至告警平台服务器。
优选的,所述报错详情模块对于信息交互模块提交的报错信息分析,展示出报错信息的具体堆栈。
优选的,所述事故管理模块由管理员终端对于报错信息增加书面说明,并上传文件用于后续查看。
与现有技术相比,本发明的有益效果是:本发明从自告警策略管理出发,事先基于通知时间、次数、内/外部指定人来进行配置多通道告警通知方式,实现多端协作处理后,达到收敛、修复目的;进而在告警列表数据中,可逐条针对每个事件记录事故定位原因、交互日志查阅记录、人工判断重试接口功能。
附图说明
图1为本发明的结构示意图;
图中标号:1、告警平台服务器;2、重试管理模块;3、策略管理模块;4、通知配置模块;5、信息交互模块;6、报错详情模块;7、事故管理模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于接口的SLA告警系统,包括告警平台服务器1、重试管理模块2、策略管理模块3、通知配置模块4、信息交互模块5、报错详情模块6以及事故管理模块7,所述告警平台服务器1与重试管理模块2、策略管理模块3、通知配置模块4、信息交互模块5、报错详情模块6、事故管理模块7电性连接;所述告警平台服务器1协调模块之间的信息交互,所述重试管理模块2重新执行接口的逻辑,所述策略管理模块3、通知配置模块4相互配合将报错信息发送给管理员终端,所述信息交互模块5与接口建立连接,所述报错详情模块6展示接口报错的详细信息,所述事故管理模块7对于报错内容添加内容进行文件说明。
进一步的,所述重试管理模块2在告警平台服务器1接收接口报错后,重新按照报错的逻辑重复执行,以确认报错信息的准确性。
进一步的,所述重试管理模块2在告警平台服务器1接收接口修复信息后,重新按照修复后的逻辑重复执行,以确认接口修复后的稳定性。
进一步的,所述策略管理模块3确定将报错信息发送至管理员终端的方式,具体的方式包括但不限于:邮箱通知、短息通知、软件通知。
进一步的,所述通知配置模块4配套策略管理模块3使用,针对策略管理模块3确定通知管理员终端的方式来配置相应的邮箱账号、电话号码、软件联系方式。
进一步的,所述信息交互模块5与接口建立稳定的数据通道,用于接口报错信息,并将报错信息转交至告警平台服务器1。
进一步的,所述报错详情模块6对于信息交互模块5提交的报错信息分析,展示出报错信息的具体堆栈。
进一步的,所述事故管理模块7由管理员终端对于报错信息增加书面说明,并上传文件用于后续查看。
工作原理:在实际使用过程中,信息交互平台5接收接口传递的报错信息,并将报错信息反馈到告警平台服务器1中;告警平台服务器1预先通过重试管理模块2,按照报错的接口逻辑重新模拟以便,以确定报错信息的准确性;确定报错信息后,通过策略管理模块3、通知配置模块4相互配合将报错信息发送至对应的管理员终端;策略管理模块3、通知配置模块4预先进行配置,其中策略管理模块3确定将报错信息发送至管理员终端的方式,例如邮箱通知、短息通知、软件通知等等,通知配置模块4根据策略管理模块3确定通知管理员终端的方式来配置相应的邮箱账号、电话号码、软件联系方式。报错详情模块6则会对报错信息分析,展示出报错信息的具体堆栈,便于管理员终端的调试查看;事故管理模块7会对完整的接口报错流程进行记录,并人工添加相应的书面说明,同时上传文件供后续的查看。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于接口的SLA告警系统,其特征在于:包括告警平台服务器(1)、重试管理模块(2)、策略管理模块(3)、通知配置模块(4)、信息交互模块(5)、报错详情模块(6)以及事故管理模块(7),所述告警平台服务器(1)与重试管理模块(2)、策略管理模块(3)、通知配置模块(4)、信息交互模块(5)、报错详情模块(6)、事故管理模块(7)电性连接;所述告警平台服务器(1)协调模块之间的信息交互,所述重试管理模块(2)重新执行接口的逻辑,所述策略管理模块(3)、通知配置模块(4)相互配合将报错信息发送给管理员终端,所述信息交互模块(5)与接口建立连接,所述报错详情模块(6)展示接口报错的详细信息,所述事故管理模块(7)对于报错内容添加内容进行文件说明。
2.根据权利要求1所述的一种基于接口的SLA告警系统,其特征在于:所述重试管理模块(2)在告警平台服务器(1)接收接口报错后,重新按照报错的逻辑重复执行,以确认报错信息的准确性。
3.根据权利要求1所述的一种基于接口的SLA告警系统,其特征在于:所述重试管理模块(2)在告警平台服务器(1)接收接口修复信息后,重新按照修复后的逻辑重复执行,以确认接口修复后的稳定性。
4.根据权利要求1所述的一种基于接口的SLA告警系统,其特征在于:所述策略管理模块(3)确定将报错信息发送至管理员终端的方式,具体的方式包括但不限于:邮箱通知、短息通知、软件通知。
5.根据权利要求1所述的一种基于接口的SLA告警系统,其特征在于:所述通知配置模块(4)配套策略管理模块(3)使用,针对策略管理模块(3)确定通知管理员终端的方式来配置相应的邮箱账号、电话号码、软件联系方式。
6.根据权利要求1所述的一种基于接口的SLA告警系统,其特征在于:所述信息交互模块(5)与接口建立稳定的数据通道,用于接口报错信息,并将报错信息转交至告警平台服务器(1)。
7.根据权利要求1所述的一种基于接口的SLA告警系统,其特征在于:所述报错详情模块(6)对于信息交互模块(5)提交的报错信息分析,展示出报错信息的具体堆栈。
8.根据权利要求1所述的一种基于接口的SLA告警系统,其特征在于:所述事故管理模块(7)由管理员终端对于报错信息增加书面说明,并上传文件用于后续查看。
CN202210897300.9A 2022-07-28 2022-07-28 一种基于接口的sla告警系统 Pending CN115277366A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210897300.9A CN115277366A (zh) 2022-07-28 2022-07-28 一种基于接口的sla告警系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210897300.9A CN115277366A (zh) 2022-07-28 2022-07-28 一种基于接口的sla告警系统

Publications (1)

Publication Number Publication Date
CN115277366A true CN115277366A (zh) 2022-11-01

Family

ID=83769998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210897300.9A Pending CN115277366A (zh) 2022-07-28 2022-07-28 一种基于接口的sla告警系统

Country Status (1)

Country Link
CN (1) CN115277366A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112056A (zh) * 2013-04-18 2014-10-22 腾讯科技(深圳)有限公司 数据处理的故障检测方法和系统
CN105119750A (zh) * 2015-09-08 2015-12-02 南京联成科技发展有限公司 一种基于大数据的分布式信息安全运维管理平台
CN110460460A (zh) * 2019-07-08 2019-11-15 阿里巴巴集团控股有限公司 业务链路故障定位方法、装置及设备
CN110597716A (zh) * 2019-08-29 2019-12-20 云南昆钢电子信息科技有限公司 一种多业务触发的故障检测处理系统及方法
CN111899105A (zh) * 2020-08-04 2020-11-06 深圳乐信软件技术有限公司 系统异常处理方法、装置、计算机设备及存储介质
CN113076229A (zh) * 2020-12-02 2021-07-06 上海金融期货信息技术有限公司 一种通用的企业级信息技术监控系统
CN113079217A (zh) * 2021-04-09 2021-07-06 上海新炬网络信息技术股份有限公司 基于移动终端的大数据告警处理装置
CN113573352A (zh) * 2021-08-17 2021-10-29 杭州东信网络技术有限公司 基于sla实现5g设备cpe故障告警实时上报的方法
CN114490256A (zh) * 2022-01-11 2022-05-13 珠海华发集团科技研究院有限公司 一种运维监控系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112056A (zh) * 2013-04-18 2014-10-22 腾讯科技(深圳)有限公司 数据处理的故障检测方法和系统
CN105119750A (zh) * 2015-09-08 2015-12-02 南京联成科技发展有限公司 一种基于大数据的分布式信息安全运维管理平台
CN110460460A (zh) * 2019-07-08 2019-11-15 阿里巴巴集团控股有限公司 业务链路故障定位方法、装置及设备
CN110597716A (zh) * 2019-08-29 2019-12-20 云南昆钢电子信息科技有限公司 一种多业务触发的故障检测处理系统及方法
CN111899105A (zh) * 2020-08-04 2020-11-06 深圳乐信软件技术有限公司 系统异常处理方法、装置、计算机设备及存储介质
CN113076229A (zh) * 2020-12-02 2021-07-06 上海金融期货信息技术有限公司 一种通用的企业级信息技术监控系统
CN113079217A (zh) * 2021-04-09 2021-07-06 上海新炬网络信息技术股份有限公司 基于移动终端的大数据告警处理装置
CN113573352A (zh) * 2021-08-17 2021-10-29 杭州东信网络技术有限公司 基于sla实现5g设备cpe故障告警实时上报的方法
CN114490256A (zh) * 2022-01-11 2022-05-13 珠海华发集团科技研究院有限公司 一种运维监控系统及方法

Similar Documents

Publication Publication Date Title
CN103490917B (zh) 故障处理情况的检测方法及装置
AU2007261542B2 (en) Method and system for monitoring non-occurring events
WO2017041406A1 (zh) 一种故障定位方法及装置
EP2026503A1 (en) System, apparatus and method for tracking device
CN103873287B (zh) 一种基于企业服务总线消息监控平台的消息补偿方法
CN103019866A (zh) 基于消息队列的分布式方法和系统
CN104243216A (zh) 集群服务器的维护方法及装置
WO2022252860A1 (zh) 一种事件处理方法、装置、计算机设备及存储介质
CN114257636A (zh) 一种统一消息发布系统
CN110569988A (zh) 一种支付机具故障处理系统及处理方法
CN115277366A (zh) 一种基于接口的sla告警系统
US20120284167A1 (en) Performance Testing Tool for Financial Applications
CN110445647A (zh) 一种物联网数据诊断及纠错方法
CN1992751B (zh) 计费短信全程监控告警系统及运行方法
KR101288535B1 (ko) 통신 시스템 모니터링 방법 및 이를 위한 장치
CN109144800A (zh) 一种服务器故障信息的收集方法、装置及相关设备
CN112965793B (zh) 一种面向标识解析数据的数据仓库任务调度方法和系统
US7941708B2 (en) Error management framework
CN114201659A (zh) 一种消息轨迹传输查询方法、装置及系统
CN113242292A (zh) 报文传输方法、装置、设备、介质及产品
CN109508356B (zh) 数据异常预警方法、装置、计算机设备及存储介质
CN113965447A (zh) 一种在线云诊断方法、装置、系统、设备及存储介质
CN111061609A (zh) 一种日志监控方法及系统
CN115827678B (zh) 一种获取业务数据的方法、装置、介质及电子设备
KR100657421B1 (ko) 학습을 통한 지능형 ums 관리 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination