CN114168371A - 一种故障智能自动报警系统 - Google Patents

一种故障智能自动报警系统 Download PDF

Info

Publication number
CN114168371A
CN114168371A CN202111196990.7A CN202111196990A CN114168371A CN 114168371 A CN114168371 A CN 114168371A CN 202111196990 A CN202111196990 A CN 202111196990A CN 114168371 A CN114168371 A CN 114168371A
Authority
CN
China
Prior art keywords
request
time
data
intelligent
fault analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111196990.7A
Other languages
English (en)
Inventor
王红鹏
王星杰
洪晓
朱文彬
李乐天
谢富成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yiqixing Information Technology Co ltd
Original Assignee
Guangzhou Yiqixing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yiqixing Information Technology Co ltd filed Critical Guangzhou Yiqixing Information Technology Co ltd
Priority to CN202111196990.7A priority Critical patent/CN114168371A/zh
Publication of CN114168371A publication Critical patent/CN114168371A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种故障智能自动报警系统,数据采集器用于在业务系统向第三方系统发起请求前、后分别采用异步形式采集数据,并采用异步形式上报数据至智能故障分析系统,定义超时异常和请求异常;智能故障分析系统用于对接入的系统信息提供持久化功能,采用数据库存取数据,对第三方系统不同接口的请求数据定期检查,检查请求记录是否超时且未给出数据返回时间或异常信息,当出现请求异常,或者超时异常出现次数、请求时间曲线异常拉伸的次数在同一单位时间内超过阈值时,即时通知相关干系人检查问题;异步线程池用于存放开启的线程。本发明能智能判别外部系统的服务是否异常及是否需要即时通知干系人进行人工干预的问题。

Description

一种故障智能自动报警系统
技术领域
本发明涉及云计算技术领域,尤其涉及一种故障智能自动报警系统。
背景技术
在线旅游代理(OTA)这一特定行业中,系统需要对接不同酒店、不同景点、不同航空公司的出票系统和其它的合作OTA的系统等等(以下统称为第三方系统)共同为用户提供服务。平台与第三方系统之间的数据交互往往是实时性的,从而造成第三方系统是否提供服务(注意:第三方系统运行正常的情况下,对OTA平台可以不提供服务)直接影响到系统平台的可用性,为了保证系统平台的可用性,就需要随时知道第三方系统的服务状态。而第三方系统由第三方运营,其健康检查对于平台来说无法获知。
从用户的角度来看,所有的服务由在线旅游代理系统提供。因对接的系统较多,出现问题的可能性也随之升高,如何在大多数用户未感知之前快速、准确的发现问题,以便做好客户的安抚工作并及时通知各方的运维和开发进行处理成为重中之重。
目前判断系统是否存有故障常用的做法是健康检查,即定期调用各个系统的特定API,以获取该系统所在服务器的各项参数,并对各参数与设定的阀值进行比较,对超出阀值的系统进行报警,如:申请号为CN201910211401.4,名称为一种基于分布式系统的故障恢复方法的中国发明专利公开了通过检查预先建立于分布式系统的检查点来判断系统是否发生故障的方法;申请号为CN201710149727.X,名称为一种软件故障报警监测方法的中国发明专利公开了预先对软件分配静态模块编码,然后在软件运行时执行该静态模块以收集系统内部状态数据来判断是否发生故障,以便后续处理。上述专利均无法通过对第三方系统表现情况,智能判别外部系统的服务是否异常;无法根据第三方系统服务的异常表现情况,智能判别是否需要即时通知干系人进行人工干预,以便平台更好的、持续地对外提供服务。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种故障智能自动报警系统,解决了现有技术无法通过对第三方系统表现情况,智能判别外部系统的服务是否异常;无法根据第三方系统服务的异常表现情况,智能判别是否需要即时通知干系人进行人工干预的问题。
本发明提供一种故障智能自动报警系统,包括数据采集器、智能故障分析系统、异步线程池;其中,
所述数据采集器用于在业务系统向第三方系统发起请求前、后分别采用异步形式采集数据,并采用异步形式上报数据至所述智能故障分析系统,定义超时异常和请求异常;
所述智能故障分析系统用于对接入的系统信息提供持久化功能,采用数据库存取数据,对第三方系统不同接口的请求数据定期检查,检查请求记录是否超时且未给出数据返回时间或异常信息,当出现请求异常,或者超时异常出现次数、请求时间曲线异常拉伸的次数在同一单位时间内超过阈值时,即时通知相关干系人检查问题;
所述异步线程池用于存放开启的线程。
进一步地,所述数据采集器在业务系统向第三方系统发起请求前,获取当前情景数据信息,并通过新开启的线程上报到所述智能故障分析系统,在业务系统向第三方系统发起请求后,采用异步形式将相关数据上报到所述智能故障分析系统,所述情景数据信息包括请求的系统标记、时间点,功能点,所述相关数据包括系统标识、时间点、功能点、请求返回码。
进一步地,所述数据采集器定义的超时异常用于处理请求时间超过最大时间长度的请求,所述数据采集器定义的请求异常用于处理404或505请求异常。
进一步地,所述数据采集器的数据采集接口通过注释形式或配置形式存在;所述业务系统与所述智能故障分析系统的联系通过数据配置的形式配置在需要监控的业务系统中。
进一步地,所述智能故障分析系统采用NOSQL数据库存储数据。
进一步地,所述智能故障分析系统还用于提供UI模块管理和展示各种数据。
进一步地,所述智能故障分析系统用于对请求异常给予一级响应,在第三方系统出现请求异常时,即时通知相关干系人检查问题;对超时异常给予二级响应,在超时异常的次数在同一单位时间内超过阈值时,上升为一级响应,通知相关干系人检查问题;对请求时间曲线异常拉伸给予三级响应,在请求时间曲线异常拉伸的次数在同一单位时间内超过阈值时,上升为一级响应。
进一步地,所述请求时间曲线是以请求次数为横坐标,以请求所用时间为纵坐标画点,将不同的点连接成曲线,所述请求所用时间为得到回应的时刻值减去发起请求时刻的时间值。
进一步地,请求时间曲线异常拉伸具体为所述请求所用时间大于参考值,所述参考值为取最近M次请求响应时间Ti并计算出请求响应时间算术平均数
Figure BDA0003303531160000031
取最近请求R次之前的M次的请求响应时间并计算算术平均数
Figure BDA0003303531160000032
假设当前第X次的请求时间为T,计算公式如下:
Figure BDA0003303531160000033
Figure BDA0003303531160000041
Figure BDA0003303531160000042
比较ΔT与预设值C的大小,若ΔT>C连续R次为真,则将请求时间曲线异常升级为一级异常。
进一步地,所述智能故障分析系统对一级响应给予短信即时通知,对二级响应给予邮件通知,对三级响应在故障分析系统给予提示。
相比现有技术,本发明的有益效果在于:
本发明采用在服务消费端进行数据采集,适应范围更广,不仅适用于平台内部各系统间的故障判别,也适用于对接的第三方系统;智能故障识别,不同级别的异常对应不同级别的预警机制,对低别级的预警采用更柔和的机制,而非一刀切的触发同一报警机制;流式计算,对采集的服务请求的响应数据通过流式计算来发现潜在的风险并给予预警,同时也是采用相对柔和的方式,而非遇见异常即刻报警。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的故障智能自动报警系统总流程图;
图2为本发明的故障智能自动报警系统数据处理流程图;
图3为本发明的数据采集上报时序图;
图4为本发明的请求时间曲线示意图;
图5为本发明的流式计算示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
一种故障智能自动报警系统,如图1-图3所示,包括数据采集器、智能故障分析系统、异步线程池;其中,
为不影响正常业务系统的性能,数据采集器用于在业务系统向第三方系统发起请求前、后分别采用异步形式采集数据,并采用异步形式上报数据至智能故障分析系统。具体的,数据采集器在业务系统向第三方系统发起请求前,获取当前情景数据信息,并通过新开启的线程上报到智能故障分析系统,在业务系统向第三方系统发起请求后,采用异步形式将相关数据上报到智能故障分析系统,情景数据信息包括请求的系统标记、时间点,功能点等必要信息,相关数据包括系统标识、时间点、功能点、请求返回码等必要信息。
数据采集器用于定义超时异常(TimeOutException)和请求异常(RequstException);超时异常用于处理请求时间超过最大时间长度的请求,数据采集器定义的请求异常用于处理404或505请求异常。本实施例中,事先定义系统之间请求的最大时间长度(MaxRequestTime),该时间值需要根据自身系统性能,与第三方系统之间的网络情况,第三方系统服务能力进行综合分析,得出一个相对合理的时间值,通常略小于网关的超时时间。
调用第三方系统时发生任何问题都由业务系统处理,数据采集器只处理数据采集和上报而不做任何的错误处理。
数据采集器的数据采集接口尽量简化。具体地,通过注释形式或配置形式存在,减少与业务系统提耦合。为减少系统的复杂性,业务系统与智能故障分析系统的联系通过数据配置的形式配置在需要监控的业务系统中。
智能故障分析系统用于对接入的系统信息提供持久化功能,即系统重启后依然可恢复正常状态;采用NOSQL数据库存取数据,利用NOSQL数据库对数据快速存取,提高自己的性能;提供UI模块管理和展示各种数据,如:监控的第三方系统、每次调用接口产生的数据、通知发送数据、通知发送级别等;对第三方系统不同接口的请求数据定期检查,检查请求记录是否超时且未给出数据返回时间或异常信息;当出现请求异常,或者超时异常出现次数、请求时间曲线异常拉伸的次数在同一单位时间内超过阈值时,即时通知相关干系人检查问题。
智能故障分析系统对一级响应给予短信即时通知,一般设置多个号码,以免个别短信未能预期到达;对二级响应给予邮件通知,对三级响应在故障分析系统给予提示。
在一实施例中,智能故障分析系统对请求异常给予一级响应,在第三方系统出现请求异常时,即时通知相关干系人检查问题;对超时异常给予二级响应,在连续或密集时,即在超时异常的次数在同一单位时间内超过阈值(如3次)时,上升为一级响应,通知相关干系人检查问题,从而避免偶尔因网络抖动出现异常误报通知。
本发明采用流式计算。具体地,在计算过程中参与计算的数据项是随着请求次数的增加,不停地向前滚动变化的,但参与计算的数据项是不变的。如:截止到A时刻,发生对第三方系统请求次数为n次,请求用时分别以T1,T2,T3...Tn表示,取最近的m次参与计算,即Tn、Tn-1、Tn-2...Tn-m+1。截止到B时刻,同样取距B时间最近的m次请求的时间值参与计算。如图5所示,分别为T1,T2向前推m个数据项,因此,任何一个时间点参数计算的数据都不同的。
智能故障分析系统对请求时间曲线异常拉伸给予三级响应,在请求时间曲线异常拉伸的次数在同一单位时间内超过阈值时,上升为一级响应。如图4所示,请求时间曲线是以请求次数为横坐标,以请求所用时间为纵坐标画点,将不同的点连接成曲线,请求所用时间为得到回应的时刻值减去发起请求时刻的时间值,单位为毫秒。
请求时间曲线异常拉伸具体为请求所用时间大于参考值,该参考值随着业务系统的运行可能会有所变化,因此该数据需要智能学习。参考值为取最近M次(M次可定义,默认值为20次)请求响应时间Ti并计算出请求响应时间算术平均数
Figure BDA0003303531160000071
取最近请求R次(默认为5次,可自定义)之前的M次的请求响应时间并计算算术平均数
Figure BDA0003303531160000072
假设当前第X次的请求时间为T,计算公式如下:
Figure BDA0003303531160000073
(当n>M时才有意义)
Figure BDA0003303531160000074
(当n>M+C时才有意义)
Figure BDA0003303531160000075
比较ΔT与预设值C的大小,若ΔT>C连续R次为真,则将请求时间曲线异常升级为一级异常。在整个过程中参与计算的数据是在不停地流动变化,因此将上述参与计算的数据项称为流式计算项。
因在数据采集时,需要将数据上报到智能故障分析系统的中心系统,为降低上报过程中对业务系统的影响,需要开启新的线程异步处理这个过程。为重用这些线程,设置异步线程池,异步线程池的参数可根据系统平台的实际需要作相应调整。
本发明实现对外部系统可用性进行监控;通过流动计算学习智能判别是否发生故障;将智能故障分析系统与业务系统分离,从而简化系统并保证系统的稳定性;不仅适用于内部系统,也适用于第三方系统;采用将不同的异常与不同的报警级别相对应的预警机制,在保证异常时有报警的情况下,采取柔和的方式以避免误报。
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。

Claims (10)

1.一种故障智能自动报警系统,其特征在于:包括数据采集器、智能故障分析系统、异步线程池;其中,
所述数据采集器用于在业务系统向第三方系统发起请求前、后分别采用异步形式采集数据,并采用异步形式上报数据至所述智能故障分析系统,定义超时异常和请求异常;
所述智能故障分析系统用于对接入的系统信息提供持久化功能,采用数据库存取数据,对第三方系统不同接口的请求数据定期检查,检查请求记录是否超时且未给出数据返回时间或异常信息,当出现请求异常,或者超时异常出现次数、请求时间曲线异常拉伸的次数在同一单位时间内超过阈值时,即时通知相关干系人检查问题;
所述异步线程池用于存放开启的线程。
2.如权利要求1所述的一种故障智能自动报警系统,其特征在于:所述数据采集器在业务系统向第三方系统发起请求前,获取当前情景数据信息,并通过新开启的线程上报到所述智能故障分析系统,在业务系统向第三方系统发起请求后,采用异步形式将相关数据上报到所述智能故障分析系统,所述情景数据信息包括请求的系统标记、时间点,功能点,所述相关数据包括系统标识、时间点、功能点、请求返回码。
3.如权利要求1所述的一种故障智能自动报警系统,其特征在于:所述数据采集器定义的超时异常用于处理请求时间超过最大时间长度的请求,所述数据采集器定义的请求异常用于处理404或505请求异常。
4.如权利要求1所述的一种故障智能自动报警系统,其特征在于:所述数据采集器的数据采集接口通过注释形式或配置形式存在;所述业务系统与所述智能故障分析系统的联系通过数据配置的形式配置在需要监控的业务系统中。
5.如权利要求1所述的一种故障智能自动报警系统,其特征在于:所述智能故障分析系统采用NOSQL数据库存储数据。
6.如权利要求1所述的一种故障智能自动报警系统,其特征在于:所述智能故障分析系统还用于提供UI模块管理和展示各种数据。
7.如权利要求1所述的一种故障智能自动报警系统,其特征在于:所述智能故障分析系统用于对请求异常给予一级响应,在第三方系统出现请求异常时,即时通知相关干系人检查问题;对超时异常给予二级响应,在超时异常的次数在同一单位时间内超过阈值时,上升为一级响应,通知相关干系人检查问题;对请求时间曲线异常拉伸给予三级响应,在请求时间曲线异常拉伸的次数在同一单位时间内超过阈值时,上升为一级响应。
8.如权利要求7所述的一种故障智能自动报警系统,其特征在于:所述请求时间曲线是以请求次数为横坐标,以请求所用时间为纵坐标画点,将不同的点连接成曲线,所述请求所用时间为得到回应的时刻值减去发起请求时刻的时间值。
9.如权利要求8所述的一种故障智能自动报警系统,其特征在于:请求时间曲线异常拉伸具体为所述请求所用时间大于参考值,所述参考值为取最近M次请求响应时间Ti并计算出请求响应时间算术平均数
Figure FDA0003303531150000021
取最近请求R次之前的M次的请求响应时间并计算算术平均数
Figure FDA0003303531150000022
假设当前第X次的请求时间为T,计算公式如下:
Figure FDA0003303531150000023
Figure FDA0003303531150000031
Figure FDA0003303531150000032
比较ΔT与预设值C的大小,若ΔT>C连续R次为真,则将请求时间曲线异常升级为一级异常。
10.如权利要求7所述的一种故障智能自动报警系统,其特征在于:所述智能故障分析系统对一级响应给予短信即时通知,对二级响应给予邮件通知,对三级响应在故障分析系统给予提示。
CN202111196990.7A 2021-10-14 2021-10-14 一种故障智能自动报警系统 Pending CN114168371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111196990.7A CN114168371A (zh) 2021-10-14 2021-10-14 一种故障智能自动报警系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111196990.7A CN114168371A (zh) 2021-10-14 2021-10-14 一种故障智能自动报警系统

Publications (1)

Publication Number Publication Date
CN114168371A true CN114168371A (zh) 2022-03-11

Family

ID=80476892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111196990.7A Pending CN114168371A (zh) 2021-10-14 2021-10-14 一种故障智能自动报警系统

Country Status (1)

Country Link
CN (1) CN114168371A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115733741A (zh) * 2022-11-08 2023-03-03 苏州浪潮智能科技有限公司 一种针对待测系统的异常场景测试方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115733741A (zh) * 2022-11-08 2023-03-03 苏州浪潮智能科技有限公司 一种针对待测系统的异常场景测试方法和装置
CN115733741B (zh) * 2022-11-08 2024-05-14 苏州浪潮智能科技有限公司 一种针对待测系统的异常场景测试方法和装置

Similar Documents

Publication Publication Date Title
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
US9369356B2 (en) Conducting a diagnostic session for monitored business transactions
US10235227B2 (en) Detection, remediation and inference rule development for multi-layer information technology (“IT”) structures
CN108989132A (zh) 故障告警处理方法、系统及计算机可读存储介质
CN109660380A (zh) 服务器运行状态的监控方法、平台、系统及可读存储介质
US20060026467A1 (en) Method and apparatus for automatically discovering of application errors as a predictive metric for the functional health of enterprise applications
CN104407964B (zh) 一种基于数据中心的集中监控系统及方法
US20030135382A1 (en) Self-monitoring service system for providing historical and current operating status
KR101547721B1 (ko) 검출 이벤트에 따른 액션 실행을 지원하는 시스템, 검출 이벤트에 다른 액션 실행을 지원하는 방법, 지원 장치 및 컴퓨터 프로그램
CN109218102A (zh) 一种告警监控方法及系统
Tang et al. Optimizing system monitoring configurations for non-actionable alerts
CN109903175A (zh) 一种保险核心系统监控平台
CN112631887A (zh) 异常检测方法、装置、电子设备和计算机可读存储介质
CN114996085A (zh) 一种基于Prometheus的实时业务监控方法和系统
CN108345527A (zh) 一种接口入参的分析监控方法及系统
CN114168371A (zh) 一种故障智能自动报警系统
CN106487597A (zh) 一种基于Zookeeper的服务监控系统和方法
CN110764967A (zh) 高性能监控告警系统、方法、装置及计算机可读存储介质
CN109687999A (zh) 一种告警故障的关联分析方法、装置及设备
CN113760634A (zh) 一种数据处理方法和装置
CN110750425A (zh) 数据库监控方法、装置、系统和存储介质
CN113381884B (zh) 用于监控告警系统的全链路监控方法及装置
JPH10229396A (ja) サービス管理方法及びシステム
CN110633165B (zh) 故障处理方法、装置、系统服务器及计算机可读存储介质
CN113347045A (zh) 一种告警消息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination