CN111506446B - 接口故障检测方法及服务器 - Google Patents

接口故障检测方法及服务器 Download PDF

Info

Publication number
CN111506446B
CN111506446B CN202010278920.5A CN202010278920A CN111506446B CN 111506446 B CN111506446 B CN 111506446B CN 202010278920 A CN202010278920 A CN 202010278920A CN 111506446 B CN111506446 B CN 111506446B
Authority
CN
China
Prior art keywords
interface
target
alarm
server
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010278920.5A
Other languages
English (en)
Other versions
CN111506446A (zh
Inventor
闫野
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Juhaokan Technology Co Ltd
Original Assignee
Juhaokan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Juhaokan Technology Co Ltd filed Critical Juhaokan Technology Co Ltd
Priority to CN202010278920.5A priority Critical patent/CN111506446B/zh
Publication of CN111506446A publication Critical patent/CN111506446A/zh
Application granted granted Critical
Publication of CN111506446B publication Critical patent/CN111506446B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种接口故障检测方法及装置,属于数据处理领域。在本申请中,当接收到针对目标接口的第一告警事件时,可以查找当前时刻之前已接收到的针对目标接口的一个或多个第二告警事件,并统计第一告警事件和一个或多个第二告警事件中满足参考条件的目标告警事件的个数。当目标告警事件的个数达到第一参考阈值,则根据目标告警事件,生成目标接口的故障通报信息。这样,则可以避免告警阈值较高导致的漏报,以及告警阈值较低产生的不必要的告警,从而提高了告警的准确率。

Description

接口故障检测方法及服务器
技术领域
本申请涉及数据处理领域,特别涉及一种接口故障检测方法及服务器。
背景技术
线上业务是通过线上业务对应的接口来实现的,这样,线上业务的可用性即可以通过该线上业务对应的接口的可用性来体现。在这种情况下,可以通过监控每一个线上业务对应的接口的情况,来监控线上业务的运行情况。当接口出现故障时,可以确定对应的线上业务的无法正常运行,这样,能够快速的发现线上业务的问题。
相关技术中,对于多个接口中的第一接口来说,服务器可以每隔预设时间间隔获取一次第一接口的接口可用性参数值并进行存储,之后,服务器可以将连续M次获取的M个接口可用性参数值中的最小值或平均值作为评价参数值。如果评价参数值小于告警阈值,则可以确定第一接口出现故障,从而生成故障通报信息。
由于相关技术中是将M个接口可用性参数值中的最小值或平均值作为评价参数值,因此,当告警阈值较高时,即使M个接口可用性参数值中存在满足告警阈值的接口指标,但是有可能由于评价参数值不满足告警阈值,从而导致漏报。而当告警阈值较低时,则可能会产生过多不必要的告警,使得告警的准确率降低。
发明内容
本申请实施例提供了一种接口故障检测方法、服务器及存储介质,可以解决接口故障告警的准确率较低的问题。所述技术方案如下:
一方面,提供了一种接口故障检测方法,所述方法包括:
当接收到针对目标接口的第一告警事件时,查找当前时刻之前已接收到的针对所述目标接口的一个或多个第二告警事件;
如果查找到所述一个或多个第二告警事件,则统计所述第一告警事件和所述一个或多个第二告警事件中满足参考条件的目标告警事件的个数;
如果所述目标告警事件的个数达到第一参考阈值,则根据所述目标告警事件,生成所述目标接口的故障通报信息。
另一方面,提供了一种服务器,所述服务器包括:
查找模块,用于当接收到针对目标接口的第一告警事件时,查找当前时刻之前已接收到的针对所述目标接口的一个或多个第二告警事件;
统计模块,用于如果查找到所述一个或多个第二告警事件,则统计所述第一告警事件和所述一个或多个第二告警事件中满足参考条件的目标告警事件的个数;
生成模块,用于如果所述目标告警事件的个数达到第一参考阈值,则根据所述目标告警事件,生成所述目标接口的故障通报信息。
另一方面,提供了一种服务器,所述服务器包括处理器、通信接口、存储器和通信总线;
其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信;
所述存储器用于存放计算机程序;
所述处理器用于执行所述存储器上所存放的程序,以实现前述提供接口故障检测方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现前述提供的接口故障检测方法的步骤。
本申请实施例提供的技术方案带来的有益效果至少包括:
在本申请实施例中,由于接收到第一告警事件之后,不会立刻生成故障通报信息,而是获取第一告警事件包括的目标接口对应的一个或多个第二告警事件,并统计一个或多个第二告警事件和第一告警事件中目标告警事件的个数,进而根据目标告警事件的个数是否达到第一参考阈值,确定是否需要生成故障通报信息。这样,则可以避免告警阈值较高导致的漏报,以及告警阈值较低产生的不必要的告警,从而提高了告警的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种接口故障检测方法所涉及的系统架构图;
图2是本申请实施例提供的一种接口故障检测方法流程图;
图3是本申请实施例提供的一种接口故障检测服务器的结构示意图;
图4是本申请实施例提供的另一种接口故障检测服务器的结构示意图。
具体实施方式
为使本申请示例性实施例的目的、技术方案和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请中示出的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整技术方案。
应当理解,本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请中使用的术语“模块”,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
在对本申请实施例进行详细的解释说明之前,先对本申请实施例涉及的应用场景予以介绍。
线上业务是通过线上业务对应的接口来实现的,这样,可以通过检测线上业务对应的接口的可用性,来检测线上业务的可用性。本申请实施例提供的接口故障检测方法即可以用于上述场景中,针对线上业务对应的任一接口,在接收到针对该接口的第一告警事件时,查找该接口的一个或多个第二告警事件,并统计第一告警事件和一个或多个第二告警事件中目标告警事件的个数,进而根据目标告警事件的个数是否达到第一参考阈值,确定目标接口是否发生故障,并在发生故障时生成故障通报信息,从而提高告警的准确率。
接下来对本申请实施例提供的接口故障检测方法所涉及的系统架构进行介绍。
图1是本申请实施例提供的一种接口故障检测方法所涉及的系统架构图。如图1所示,该系统100包括故障管理系统101、监控系统102、故障配置数据库103、时序数据库104和配置管理数据库105。故障管理系统101可以分别与监控系统102、故障配置数据库103、时序数据库104以及配置管理数据库105之间通过无线或有线方式连接以进行通信,另外,监控系统102和时序数据库104之间也可以通过无线或有线方式连接以进行通信。
其中,监控系统102中存储有告警策略,告警策略可以包括告警阈值。监控系统102可以每隔预设时间间隔获取一次目标接口的接口可用性参数值,并将接口可用性参数值发送至时序数据库104,以使时序数据库104存储接口可用性参数。当监控系统102获取到的接口可用性参数值满足告警策略时,可以向故障管理系统101发送告警事件。
在一些实施例中,告警阈值是指需要触发告警事件的阈值,告警阈值越高越容易触发告警事件,从而发出故障通报,但是也有较高概率产生误报,告警阈值低不容易触发告警事件,也即不容易发出故障通报,但容易产生漏报,本申请中,第一次达到告警阈值生成告警事件后并不发出故障通报,而是在多次达到告警阈值生成告警事件后再发出故障通报,能很好的平衡误报和漏报的问题。
故障管理系统101可以接收监控系统102发送的告警事件,并将告警事件发送至时序数据库104,以使时序数据库104存储告警事件。故障管理系统101可以向故障配置数据库103发送告警策略获取请求,以获取告警策略,并向时序数据库104发送告警事件获取请求,以获取包括的接口标识为目标接口的接口标识的多个告警事件。当确定满足告警策略之后,故障管理系统101可以向故障配置数据库103发送接口标识获取请求,以获取与目标接口存在业务关联的关联接口的接口标识,并向配置管理数据库105发送服务器信息获取请求,以获取目标接口所对应的目标服务器的标识,进而根据目标接口的接口标识、关联接口的接口标识、目标告警事件包括的告警时间点以及目标服务器的标识,生成目标接口的故障通报信息。
故障配置数据库103中存储有接口标识与告警策略的第一对应关系,以及接口标识和关联接口的接口标识的第二对应关系。故障配置数据库103接收到故障管理系统101发送的告警策略获取请求时,可以向故障管理系统101发送目标接口的接口标识对应的告警策略,当故障配置数据库103接收到故障管理系统101发送的接口标识获取请求时,可以向故障管理系统101发送目标接口的接口标识对应的关联接口的接口标识。
时序数据库104可以接收监控系统102发送的接口可用性参数值并进行存储,还可以接收故障管理系统101发送的告警事件并进行存储。
配置管理数据库105中存储有接口标识与服务器的标识之间的对应关系。配置管理数据库105可以接收故障管理系统101发送的获取请求,并根据获取请求中携带的目标接口的接口标识,确定目标接口的接口标识对应的目标服务器的标识,进而向配置管理数据库105发送目标服务器的标识。
在本申请实施例中,故障管理系统101和监控系统102可以分别位于部署在不同的服务器上,也可以部署在同一个服务器上,另外,故障配置数据库103、时序数据库104和配置管理数据库105分别可以分别部署在不同的服务器上,也可以部署在同一个服务器上。或者,上述三个数据库也可以与故障管理系统101部署在一台服务器上,或者,上述各个系统和数据库可以分别部署在不同的服务器上,本申请实施例对此不作限定。其中,上述的服务器可以为一台单独的服务器,也可以为一个服务器集群。
接下来对本申请实施例提供的接口故障检测方法进行介绍。
图2是本申请实施例提供的一种接口故障检测方法的流程图,该方法应用于服务器中,该服务器可以为部署有图1中所述的故障管理系统101的服务器。如图2所示,该方法包括以下步骤:
步骤201:当接收到针对目标接口的第一告警事件时,查找当前时刻之前已接收到的针对目标接口的一个或多个第二告警事件。
需要说明的是,监控系统中存储有接口标识与告警策略的对应关系。监控系统可以每隔预设时间间隔获取一次目标接口的接口可用性参数值,并将接口可用性参数值发送至时序数据库,以使时序数据库存储接口可用性参数。之后,监控系统可以根据目标接口的接口标识获取目标接口对应的第一告警策略,并根据第一告警策略以及接口可用性参数确定是否针对目标接口进行告警。
其中,接口可用性参数值可以为在预设时间间隔内通过目标接口传输的数据包中,携带目标状态码的数据包占全部数据包的比例。
示例性地,预设时间间隔为1分钟,第一告警策略为接口可用性参数低于95%且持续5分钟。服务器连续5次获取的5个目标接口的接口可用性参数值为95%、96%、93%,94%、92%,这样,服务器可以确定该5个接口可用性参数值的平均值为94%,也即是5分钟的评价参数值为94%,由于评价参数值低于95%,则可以针对该目标接口进行告警。
当监控系统确定要针对目标接口进行告警时,可以生成第一告警事件,并向服务器发送第一告警事件,第一告警事件可以包括接口可用性参数值、目标接口的接口标识和告警时间点。可选地,第一告警事件中包括的接口可用性参数可以为触发该第一告警事件生成的评价参数值。例如,对于前述示例而言,第一告警事件中包括的接口可用性参数值即为确定得到的评价参数值94%。
服务器接收到第一告警事件之后,可以从当前时刻之前的多个告警事件中获取一个或多个第二告警事件。
在一种可能的情况下,服务器中存储有当前时刻之前已接收到的多个告警事件。此时,服务器可以获取第一告警事件中包括的目标接口的接口标识,并根据目标接口的接口标识,从当前时刻之前已接收到的多个告警事件中查找包括目标接口的接口标识的告警事件。之后,可以将查找到的包括目标接口的接口标识的一个或多个告警事件作为一个或多个第二告警事件。
可选地,在一些可能的情况下,服务器可以根据第一告警事件生成告警事件获取请求,并将告警事件获取请求发送至时序数据库。时序数据库接收到告警事件获取请求之后,可以获取第一告警事件,并从第一告警事件中获取目标接口的接口标识,进而根据目标接口的接口标识,从存储的告警事件中查找包括的接口标识为目标接口的接口标识的一个或多个第二告警事件,将该一个或多个第二告警事件发送给服务器,之后,时序数据库可以存储第一告警事件。
步骤202:如果查找到一个或多个第二告警事件,则统计第一告警事件和一个或多个第二告警事件中满足参考条件的目标告警事件的个数。
其中,参考条件是指包括的接口可用性参数值小于第二参考阈值。
需要说明的是,服务器可以向故障配置数据库发送获取请求,获取请求中携带目标接口的接口标识。故障配置数据库接收到获取请求后,可以从存储的接口标识和告警策略的对应关系中获取目标接口的接口标识对应的告警策略,并将该告警策略发送至服务器,该告警策略中包括该参考条件和第一参考阈值。
在一种可能的情况下,服务器查找到一个或多个第二告警事件后,可以获取每个第二告警事件中包括的接口可用性参数值,将获取的每个接口可用性参数值与第二参考阈值进行比较,并统计包括的接口可用性参数值小于第二参考阈值的第二告警事件的第一个数。之后,可以将第一告警事件包括的接口可用性参数值与第二参考阈值进行比较,当第一告警事件包括的接口可用性参数值小于第二参考阈值,则可以将第一个数加1,从而得到目标告警事件的个数。
示例性地,告警策略包括的第二参考阈值为98%,第一参考阈值为3,服务器查找到5个第二告警事件如下表1所示,第一告警事件包括的告警时间点为14:10,接口标识为接口1,接口可用性参数为97%。服务器可以将多个第二告警事件包括的接口可用性参数值与第二参考阈值进行比较,确定包括的接口可用性参数值小于第二参考阈值的第二告警事件的第一个数为2个。之后,可以将第一告警事件包括的接口可用性参数值与第二参考阈值进行比较,确定第一告警事件包括的接口可用性参数值小于第二参考阈值,则可以确定目标告警事件的个数为3。
表1
告警时间点 接口标识 接口可用性参数值
13:19 接口1 99%
13:35 接口1 98%
13:46 接口1 98%
13:52 接口1 97%
14:03 接口1 96%
在另一种可能的情况下,服务器中可以存储有接口标识与当前时刻之前已统计得到的目标告警事件的个数的对应关系。服务器可以获取第一告警事件包括目标接口的接口标识以及接口可用性参数值,并将接口可用性参数值与第二参考阈值进行比较。当接口可用性参数值小于第二参考阈值时,服务器可以根据目标接口的接口标识从上述对应关系中查找目标接口的接口标识对应的当前时刻之前已统计得到的目标告警事件的个数,并将该个数加1,从而得到更新后的目标告警事件的个数,也即当前时刻的目标告警事件的个数。
示例性地,服务器中存储的接口标识与当前时刻之前已统计得到的目标告警事件的个数的对应关系如下表2所示,第一告警事件包括的告警时间点为14:10,接口标识为接口1,接口可用性参数为97%。服务器可以将第一告警事件包括的接口可用性参数值与第二参考阈值进行比较,当确定第一告警事件包括的接口可用性参数值小于第二参考阈值时,服务器可以根据第一告警事件包括的接口标识为接口1,从存储的对应关系中获取接口1对应的当前时刻之前已统计得到的目标告警事件的个数为2。这样,则可以确定目标告警事件的个数为3,并将对应关系进行更新,得到下表3所示的对应关系。
表2
接口标识 目标告警事件的个数
接口1 2
接口2 1
接口3 1
接口4 3
接口5 0
表3
接口标识 目标告警事件的个数
接口1 3
接口2 1
接口3 1
接口4 3
接口5 0
步骤203:如果目标告警事件的个数达到第一参考阈值,则根据目标告警事件,生成目标接口的故障通报信息。
服务器确定目标告警事件的个数后,可以将目标告警事件的个数与第一参考阈值进行比较,如果目标告警事件的个数达到第一参考阈值,服务器可以根据目标告警事件包括的目标接口的接口标识和告警时间点,生成目标接口的故障通报信息。
示例性地,继续前述举例,告警策略包括的第二参考阈值为98%,第一参考阈值为3,而目标告警事件的个数为3,此时,可以确定目标告警事件的个数达到第一参考阈值,且目标告警事件如下表4所示。之后,服务器可以根据目标告警事件包括的目标接口的接口标识和告警时间点,生成目标接口的故障通报信息。
表4
目标告警时间点 接口标识 接口可用性参数值
13:52 接口1 97%
14:03 接口1 96%
14:10 接口1 97%
在生成故障通报信息时,服务器可以根据目标接口的接口标识,确定与目标接口存在业务关联的关联接口的接口标识,进而可以根据目标接口的接口标识、关联接口的接口标识和目标告警事件包括的告警时间点,生成目标接口的故障通报信息。
作为一种示例,服务器可以根据目标接口的接口标识生成接口标识获取请求,并将该接口标识获取请求发送至故障配置数据库中。故障配置数据库接收到接口标识获取请求后,可以根据接口标识获取请求中包括的目标接口的接口标识从存储的接口标识和关联接口的接口标识的对应关系中,获取目标接口的接口标识对应的关联接口的接口标识,进而将获取到的关联接口的接口标识发送至服务器中。
服务器接收到关联接口的接口标识之后,可以从当前时刻之前已接收到的多个告警事件中,获取包括关联接口的接口标识的一个或多个第三告警事件,并确定一个或多个第三告警事件中是否存在与目标告警事件包括的告警时间点相同的目标告警时间点。
其中,获取一个或多个第三告警事件的具体实现方式可以参考前述获取一个或多个第二告警事件的具体实现方式,在此不再赘述。之后,服务器可以获取一个或多个第三告警事件包括的一个或多个告警时间点,并将获取到的一个或多个告警时间点与目标告警事件包括的告警时间点进行比较,从而确定一个或多个第三告警事件中是否存在目标告警时间点。
在一些实施例中,如果一个或多个第三告警事件中存在与目标告警事件包括的告警时间点相同的目标告警时间点,则获取目标接口所对应的目标服务器和关联接口所对应的关联服务器在目标告警时间点的第一运行数据,并根据第一运行数据,生成目标接口的故障通报信息。
示例性地,继续前述举例,目标接口的关联接口的接口标识为接口2,服务器获取到的一个或多个第三告警事件如下表5所示,则可以确定一个或多个第三告警事件中存在目标告警时间点为13:52。
表5
告警时间点 接口标识 接口可用性参数值
10:19 接口2 99%
11:35 接口2 98%
12:46 接口2 98%
13:52 接口2 97%
15:03 接口2 96%
服务器确定一个或多个第三告警事件中存在目标告警时间点后,可以根据目标接口的接口标识和关联接口的接口标识生成获取请求,并将获取请求发送至配置管理数据库。配置管理数据库接收到获取请求后,可以根据获取请求中携带的目标接口的接口标识和关联接口的接口标识分别从存储的接口标识与服务器的标识的对应关系中,确定目标接口的接口标识对应的目标服务器的标识,以及关联接口的接口标识对应的关联服务器的标识,并将目标服务器的标识和关联服务器的标识发送至服务器中。
需要说明的是,由于一个接口可能同时对应多个服务器,因此,服务器可能获取到一台或多台目标服务器的标识以及一台或多台关联服务器的标识,本申请实施例在此不做限定。
服务器获取到目标服务器的标识和关联服务器的标识之后,可以根据目标告警时间点生成获取请求,向目标服务器和关联服务器发送获取请求。目标服务器和关联服务器接收到获取请求后,可以确定目标告警时间点对应的第一运行数据,并将第一运行数据发送至服务器。
其中,第一运行数据可以包括多个参数,例如:cpu使用率、内存使用率、io使用率等。
服务器接收到目标服务器和关联服务器发送的在目标告警时间点对应的第一运行数据之后,可以根据第一运行数据生成故障通报信息。
其中,故障通报信息可以包括目标接口的接口标识、目标服务器的第一运行数据以及关联接口的接口标识,关联服务器的第一运行数据。
可选地,服务器中可以存储有接口标识与业务标识的对应关系,服务器可以根据目标接口的接口标识获取目标接口所属业务的业务标识,并根据关联接口的接口标识获取关联接口所属业务的业务标识。在这种情况下,故障通报信息中还可以包括目标接口所属业务的业务标识以及关联接口所属业务的业务标识。
可选地,服务器中还可以存储第一运行数据包括的多个参数分别对应的参考阈值。服务器可以将目标告警时间点对应的第一运行数据包括的多个参数,分别与对应的参考阈值进行比较,当多个参数中存在不满足对应的参考阈值的参数时,服务器可以在故障通报信息中对相应参数进行标注。
在另一些实施例中,如果一个或多个第三告警事件中不存在与目标告警事件包括的告警时间点相同的目标告警时间点,则获取目标接口所对应的目标服务器在目标告警事件包括的告警时间点的第二运行数据,并根据第二运行数据,生成目标接口的故障通报信息。
示例性地,继续前述举例,目标接口的关联接口的接口标识为接口2,服务器获取到的一个或多个第三告警事件如下表6所示,则可以确定一个或多个第三告警事件中不存在目标告警时间点。
表6
告警时间点 接口标识 接口可用性参数值
10:19 接口2 99%
11:35 接口2 98%
12:46 接口2 98%
13:56 接口2 97%
15:03 接口2 96%
服务器确定一个或多个第三告警事件中不存在目标告警时间点后,可以根据目标接口的接口标识生成获取请求,并将获取请求发送至配置管理数据库。配置管理数据库接收到获取请求后,可以根据获取请求中携带的目标接口的接口标识从存储的接口标识与服务器的标识的对应关系中,确定目标接口的接口标识对应的目标服务器的标识,并将目标服务器的标识发送至服务器中。
服务器获取到目标服务器的标识之后,可以根据目标告警时间点生成获取请求,向目标服务器发送获取请求。目标服务器接收到获取请求后,可以确定目标告警时间点对应的第二运行数据,并将第二运行数据发送至服务器。服务器接收到目标服务器发送的在目标告警时间点对应的第二运行数据之后,可以根据第二运行数据生成故障通报信息。
其中,具体的实现方式可以参考前述情况下的具体实现方式,在此不再赘述。
可选地,如果目标告警事件的个数未达到第一参考阈值,服务器可以不用生成目标接口的故障通报信息。
在本申请实施例中,由于接收到第一告警事件之后,不会立刻生成故障通报信息,而是获取第一告警事件包括的目标接口对应的一个或多个第二告警事件,并统计一个或多个第二告警事件和第一告警事件中目标告警事件的个数,进而根据目标告警事件的个数是否达到第一参考阈值,确定是否需要生成故障通报信息。这样,则可以避免告警阈值较高导致的漏报,以及告警阈值较低产生的不必要的告警,从而提高了告警的准确率。
参见图3,本申请实施例提供了一种服务器300,该服务器300包括:
查找模块301,用于当接收到针对目标接口的第一告警事件时,查找当前时刻之前已接收到的针对目标接口的一个或多个第二告警事件;
统计模块302,用于如果查找到一个或多个第二告警事件,则统计第一告警事件和一个或多个第二告警事件中满足参考条件的目标告警事件的个数;
生成模块303,用于如果目标告警事件的个数达到第一参考阈值,则根据目标告警事件,生成目标接口的故障通报信息。
可选地,查找模块301具体用于:
根据第一告警事件包括的目标接口的接口标识,从当前时刻之前已接收到的多个告警事件中查找包括目标接口的接口标识的告警事件;
将查找到的包括目标接口的接口标识的一个或多个告警事件作为一个或多个第二告警事件。
可选地,生成模块303包括:
生成子模块,用于根据目标告警事件包括的目标接口的接口标识和告警时间点,生成目标接口的故障通报信息。
可选地,生成子模块具体用于:
根据目标接口的接口标识,确定与目标接口存在业务关联的关联接口的接口标识;
根据目标接口的接口标识、关联接口的接口标识和目标告警事件包括的告警时间点,生成目标接口的故障通报信息。
可选地,生成子模块具体用于:
从当前时刻之前已接收到的多个告警事件中,获取包括关联接口的接口标识的一个或多个第三告警事件;
如果一个或多个第三告警事件中存在与目标告警事件包括的告警时间点相同的目标告警时间点,则获取目标接口所对应的目标服务器和关联接口所对应的关联服务器在目标告警时间点的第一运行数据;
根据第一运行数据,生成目标接口的故障通报信息。
可选地,服务器还用于:
如果一个或多个第三告警事件中不存在与目标告警事件包括的告警时间点相同的目标告警时间点,则获取目标接口所对应的目标服务器在目标告警事件包括的告警时间点的第二运行数据;
根据第二运行数据,生成目标接口的故障通报信息。
可选地,每个告警事件均包括接口可用性参数值,参考条件是指包括的接口可用性参数值小于第二参考阈值。
综上所述,在本申请实施例中,由于接收到第一告警事件之后,不会立刻生成故障通报信息,而是获取第一告警事件包括的目标接口对应的一个或多个第二告警事件,并统计一个或多个第二告警事件和第一告警事件中目标告警事件的个数,进而根据目标告警事件的个数是否达到第一参考阈值,确定是否需要生成故障通报信息。这样,则可以避免告警阈值较高导致的漏报,以及告警阈值较低产生的不必要的告警,从而提高了告警的准确率。
需要说明的是:上述实施例提供的接口故障检测的服务器在检测接口故障时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的接口故障检测的服务器与接口故障检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4示出了本申请一个示例性实施例是本申请实施例提供的一种用于接口故障检测的服务器400的结构示意图。上述图2所示的实施例中的服务器的功能即可以通过图4中所示的服务器来实现。该服务器可以是后台服务器集群中的服务器。具体来讲:
服务器400包括中央处理单元(CPU)401、包括随机存取存储器(RAM)402和只读存储器(ROM)403的系统存储器404,以及连接系统存储器404和中央处理单元401的系统总线405。服务器400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)406,和用于存储操作系统413、应用程序414和其他程序模块415的大容量存储设备407。
基本输入/输出系统406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到系统总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出系统406还可以包括输入输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备407通过连接到系统总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为服务器400提供非易失性存储。也就是说,大容量存储设备407可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器404和大容量存储设备407可以统称为存储器。
根据本申请的各种实施例,服务器400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器400可以通过连接在系统总线405上的网络接口单元411连接到网络412,或者说,也可以使用网络接口单元411来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的接口故障检测方法的指令。
本申请实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述图2所示实施例提供的接口故障检测方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述图2所示实施例提供的接口故障检测方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (6)

1.一种接口故障检测方法,其特征在于,所述方法包括:
当接收到针对目标接口的第一告警事件时,查找当前时刻之前已接收到的针对所述目标接口的一个或多个第二告警事件;
如果查找到所述一个或多个第二告警事件,则统计所述第一告警事件和所述一个或多个第二告警事件中满足参考条件的目标告警事件的个数;
如果所述目标告警事件的个数达到第一参考阈值,根据所述目标接口的接口标识,确定与所述目标接口存在业务关联的关联接口的接口标识;
从当前时刻之前已接收到的多个告警事件中,获取包括所述关联接口的接口标识的一个或多个第三告警事件;
如果所述一个或多个第三告警事件中存在与所述目标告警事件包括的告警时间点相同的目标告警时间点,则获取所述目标接口所对应的目标服务器和所述关联接口所对应的关联服务器在所述目标告警时间点的第一运行数据,其中,所述第一运行数据包括cpu使用率、内存使用率和io使用率;
根据所述第一运行数据,生成所述目标接口的故障通报信息,其中,所述故障通报信息包括所述目标接口的接口标识、所述目标服务器在所述目标告警时间点的第一运行数据、所述关联接口的接口标识和所述关联服务器在所述目标告警时间点的第一运行数据。
2.根据权利要求1所述的方法,其特征在于,所述查找当前时刻之前已接收到的针对所述目标接口的一个或多个第二告警事件,包括:
根据所述第一告警事件包括的目标接口的接口标识,从当前时刻之前已接收到的多个告警事件中查找包括所述目标接口的接口标识的告警事件;
将查找到的包括所述目标接口的接口标识的一个或多个告警事件作为所述一个或多个第二告警事件。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述一个或多个第三告警事件中不存在与所述目标告警事件包括的告警时间点相同的目标告警时间点,则获取所述目标接口所对应的目标服务器在所述目标告警事件包括的告警时间点的第二运行数据;
根据所述第二运行数据,生成所述目标接口的故障通报信息。
4.根据权利要求1-3任一所述的方法,其特征在于,每个告警事件均包括接口可用性参数值,所述参考条件是指包括的接口可用性参数值小于第二参考阈值。
5.一种服务器,其特征在于,所述服务器包括:
查找模块,用于当接收到针对目标接口的第一告警事件时,查找当前时刻之前已接收到的针对所述目标接口的一个或多个第二告警事件;
统计模块,用于如果查找到所述一个或多个第二告警事件,则统计所述第一告警事件和所述一个或多个第二告警事件中满足参考条件的目标告警事件的个数;
生成模块,用于如果所述目标告警事件的个数达到第一参考阈值,根据所述目标接口的接口标识,确定与所述目标接口存在业务关联的关联接口的接口标识;从当前时刻之前已接收到的多个告警事件中,获取包括所述关联接口的接口标识的一个或多个第三告警事件;如果所述一个或多个第三告警事件中存在与所述目标告警事件包括的告警时间点相同的目标告警时间点,则获取所述目标接口所对应的目标服务器和所述关联接口所对应的关联服务器在所述目标告警时间点的第一运行数据;根据所述第一运行数据,生成所述目标接口的故障通报信息,其中,所述故障通报信息包括所述目标接口的接口标识、所述目标服务器在所述目标告警时间点的第一运行数据、所述关联接口的接口标识和所述关联服务器在所述目标告警时间点的第一运行数据。
6.根据权利要求5所述的服务器,其特征在于,所述查找模块具体用于:
根据所述第一告警事件包括的目标接口的接口标识,从当前时刻之前已接收到的多个告警事件中查找包括所述目标接口的接口标识的告警事件;
将查找到的包括所述目标接口的接口标识的一个或多个告警事件作为所述一个或多个第二告警事件。
CN202010278920.5A 2020-04-10 2020-04-10 接口故障检测方法及服务器 Active CN111506446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010278920.5A CN111506446B (zh) 2020-04-10 2020-04-10 接口故障检测方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010278920.5A CN111506446B (zh) 2020-04-10 2020-04-10 接口故障检测方法及服务器

Publications (2)

Publication Number Publication Date
CN111506446A CN111506446A (zh) 2020-08-07
CN111506446B true CN111506446B (zh) 2023-10-27

Family

ID=71864751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010278920.5A Active CN111506446B (zh) 2020-04-10 2020-04-10 接口故障检测方法及服务器

Country Status (1)

Country Link
CN (1) CN111506446B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014164628A (ja) * 2013-02-26 2014-09-08 Nec Corp 情報処理装置、情報処理方法および情報処理プログラム並びに統合監視サーバ及び監視システム
CN107220162A (zh) * 2017-07-04 2017-09-29 鹏元征信有限公司 一种业务告警方法、存储介质及装置
CN108572907A (zh) * 2018-01-25 2018-09-25 北京金山云网络技术有限公司 一种告警方法、装置、电子设备及计算机可读存储介质
KR20190096706A (ko) * 2018-02-09 2019-08-20 주식회사 케이티 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014164628A (ja) * 2013-02-26 2014-09-08 Nec Corp 情報処理装置、情報処理方法および情報処理プログラム並びに統合監視サーバ及び監視システム
CN107220162A (zh) * 2017-07-04 2017-09-29 鹏元征信有限公司 一种业务告警方法、存储介质及装置
CN108572907A (zh) * 2018-01-25 2018-09-25 北京金山云网络技术有限公司 一种告警方法、装置、电子设备及计算机可读存储介质
KR20190096706A (ko) * 2018-02-09 2019-08-20 주식회사 케이티 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템

Also Published As

Publication number Publication date
CN111506446A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
US9672085B2 (en) Adaptive fault diagnosis
CN107864063B (zh) 一种异常监控方法、装置及电子设备
CN112631913B (zh) 应用程序的运行故障监控方法、装置、设备和存储介质
CN112737800B (zh) 服务节点故障定位方法、调用链生成方法及服务器
US9658908B2 (en) Failure symptom report device and method for detecting failure symptom
CN104734871A (zh) 一种实现故障定位的方法及装置
CN110795264A (zh) 监控管理方法及系统、智能管理终端
CN115766402A (zh) 服务器故障根因的过滤方法和装置、存储介质及电子装置
CN107885634B (zh) 监控中异常信息的处理方法和装置
KR20190104759A (ko) 지능형 장비 이상 증상 사전 탐지 시스템 및 방법
CN111708672B (zh) 数据传输方法、装置、设备及存储介质
CN115686381B (zh) 存储集群运行状态的预测方法及装置
CN111506446B (zh) 接口故障检测方法及服务器
CN112612679A (zh) 系统运行状态监控方法、装置、计算机设备和存储介质
KR102676139B1 (ko) IoT 서비스에 대한 모니터링 시스템
CN113472881B (zh) 在线终端设备的统计方法和装置
AU2014200806B1 (en) Adaptive fault diagnosis
CN113807697A (zh) 基于告警关联的派单方法及装置
CN115705259A (zh) 故障处理方法、相关设备及存储介质
CN112686644A (zh) 一种项目运行状态监测方法、系统、设备及存储介质
CN114422324B (zh) 一种告警信息的处理方法、装置、电子设备及存储介质
CN110750418B (zh) 一种信息处理方法、电子设备和信息处理系统
CN114048098B (zh) 异常服务实例的监控方法及其装置
CN118069673A (zh) 一种告警的处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant