CN110784355A - 一种故障识别方法及装置 - Google Patents

一种故障识别方法及装置 Download PDF

Info

Publication number
CN110784355A
CN110784355A CN201911046704.1A CN201911046704A CN110784355A CN 110784355 A CN110784355 A CN 110784355A CN 201911046704 A CN201911046704 A CN 201911046704A CN 110784355 A CN110784355 A CN 110784355A
Authority
CN
China
Prior art keywords
preset
index
monitoring mode
fault
preset index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911046704.1A
Other languages
English (en)
Other versions
CN110784355B (zh
Inventor
吴潇根
王志斌
许燕超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wangsu Science and Technology Co Ltd
Original Assignee
Wangsu Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wangsu Science and Technology Co Ltd filed Critical Wangsu Science and Technology Co Ltd
Priority to CN201911046704.1A priority Critical patent/CN110784355B/zh
Publication of CN110784355A publication Critical patent/CN110784355A/zh
Application granted granted Critical
Publication of CN110784355B publication Critical patent/CN110784355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0613Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on the type or category of the network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种故障识别方法及装置,获取网络服务系统在预设时段内的网络状态数据,确定任一监控模式对应的各预设指标在预设时段内是否处于异常状态,并基于此确定监控模式在预设时段内是否处于故障状态,任一监控模式对应的各预设指标基于历史故障场景对应的历史网络状态数据中存在异常状态的预设指标确定。通过从历史故障场景对应的历史网络状态数据中提炼出监控模式以及监控模式对应的各预设指标,使得监控模式对应的各预设指标的异常情况能够标识监控模式的真实故障情况,从而基于监控模式对应的各预设指标的综合情况确定的监控模式的故障情况较为准确,且故障识别的效率较高。

Description

一种故障识别方法及装置
技术领域
本发明涉及网络服务技术领域,尤其涉及一种故障识别方法及装置。
背景技术
现阶段,网络服务系统在向用户提供网络服务时,通常需要监控网络的运行状态,若某一时段内的网络运行状态显示网络服务存在故障,则可以向运维人员进行告警,以使运维人员及时修复网络设备,恢复网络服务能力。由此可知,网络服务的质量依赖于网络故障的监控预警策略,制定好的监控预警策略,对于提升网络服务系统的网络服务能力非常重要。
单指标监控预警策略是现有较为常用的一种故障识别方法,以带宽为例,具体实施中,可以实时监控网络服务系统为用户提供网络服务的带宽变化率,若某一时段相对于上一时段的带宽下降率较大,则可以确定该时段的带宽处于故障状态,从而可以向运维人员进行带宽告警。然而,由于该种方式基于单指标来识别网络故障,从而网络服务系统需要监控大量的网络数据,并生成较多的告警信息,相应地需要大量的运维人员对告警信息进行进一步地故障识别,导致故障识别的效率较低;且,单指标形成的监控告警通常并未标识真正的网络故障,因此,虽然单指标形成的监控告警数量较多,但是其告警噪点也较多,从而使得故障识别的准确率较低。
综上,目前亟需一种故障识别方法,用以解决现有技术采用单指标监控预警策略进行故障识别所导致的故障识别的效率低、准确性差的技术问题。
发明内容
本发明实施例提供一种故障识别方法及装置,用以解决现有技术采用单指标监控预警策略进行故障识别所导致的故障识别的效率低、准确性差的技术问题。
第一方面,本发明实施例提供的一种故障识别方法,包括:
获取网络服务系统在预设时段内的网络状态数据,针对任一监控模式,根据所述监控模式对应的各预设指标在所述预设时段内的网络状态数据,确定所述各预设指标在所述预设时段内是否处于异常状态,并根据所述各预设指标在所述预设时段内的异常状态确定所述监控模式在所述预设时段内是否处于故障状态;其中,任一监控模式对应的各预设指标是基于历史故障场景对应的历史网络状态数据中存在异常状态的预设指标确定的。
在上述设计中,通过从历史故障场景对应的历史网络状态数据中提炼出监控模式以及监控模式对应的各预设指标,使得监控模式对应的各预设指标的异常情况能够用于标识监控模式的故障情况,从而使得基于监控模式对应的各预设指标的综合情况所确定的监控模式的故障情况较为准确,且,上述设计通过组合的各个预设指标识别故障,相比于现有技术采用单指标识别故障的方式来说,可以优先识别出比较严重的故障,提高故障识别的效率,并能准确命中真实故障。
在一种可能的设计中,通过如下方式确定每种监控模式对应的各预设指标:获取每个业务类型对应的历史网络状态数据,针对于任一业务类型,基于所述业务类型对应的历史网络状态数据确定与所述业务类型相关联的各个预设指标,并根据所述各个预设指标在所述业务类型中的每个历史故障场景所属的时段的异常状态,确定所述业务类型中的每个历史故障场景对应的各个预设指标;如此,针对每个业务类型中的任一历史故障场景设置对应的监控模式,并将所述历史故障场景对应的各个预设指标确定为所述监控模式对应的各预设指标。
在上述设计中,从业务类型对应的历史网络状态数据中提取得到业务类型的各个预设指标,并基于业务类型的历史故障场景确定业务类型中每种监控模式对应的各预设指标,能够使得监控模式与实际的业务类型相匹配,针对不同的业务类型组合不同的预设指标,如此,基于监控模式的故障识别方式能够区分不同业务类型中的故障,更加具有针对性,为故障分析处理提供更加明确的业务类型指引。
在一种可能的设计中,任一业务类型相关联的各个预设指标包括通用预设指标和特有预设指标,所述通用预设指标为各个业务类型均关联的预设指标,所述特有预设指标为与所述业务类型关联的预设指标;所述根据所述各个预设指标在所述业务类型中的每个历史故障场景所属的时段的异常状态,确定所述业务类型中的每个历史故障场景对应的各个预设指标,包括:针对于所述业务类型中的任一历史故障场景,根据所述业务类型的各个特有预设指标在所述历史故障场景所属的时段的异常状态,从所述业务类型的各个特有预设指标中确定与所述历史故障场景相关的一个或多个特有预设指标;如此,将所述通用预设指标和所述一个或多个特有预设指标确定为所述历史故障场景对应的各个预设指标。
在上述设计中,通过将网络服务系统中的各个预设指标划分为通用预设指标和各个业务系统的特有预设指标,可以组合通用预设指标和每个业务系统的任意一个或多个特有预设指标得到一种监控模式,如此,可以使得监控模式的监控力度更好,监控信息更为全面。
在一种可能的设计中,任一预设指标由指标类型、指标类型所属的维度和指标状态构成;所述通用预设指标的指标类型包括带宽、请求数、状态码中的任意一项或任意多项,所述请求数或带宽所属的维度包括边缘设备、中转设备、回源设备、源站中的任意一项或任意多项,所述状态码所属的维度包括Shark状态码、Squid状态码和SC状态码中的任意一项或任意多项,所述指标状态包括上升和/或下降。
在上述设计中,通过使用指标类型、指标类型所属的维度和指标状态构建每种预设指标,使得不同的预设指标能够由统一的标准来衡量,因此,通过组合不同的指标类型、指标类型所属的维度和指标状态即可得到不同的预设指标,如此,预设指标的种类和数量更为全面,通过对预设指标管理的灵活管理,也能提高基于各个预设指标识别故障的准确性。
在一种可能的设计中,所述根据所述各预设指标在所述预设时段内的异常状态确定所述监控模式在所述预设时段内是否处于故障状态,包括:若所述监控模式对应的各预设指标在所述预设时段内均处于异常状态,则确定所述监控模式在所述预设时段内处于故障状态,若所述监控模式对应的各预设指标中存在任意一项或任意多项在所述预设时段内处于正常状态,则确定所述监控模式在所述预设时段内处于正常状态。
在上述设计中,一个预设指标处于异常状态时通常无法真正地命中网络故障,因此,通过设置每种监控模式对应的各预设指标,并基于组合的各预设指标综合分析该监控模式的故障情况,可以避免单一预设指标所造成的数据噪点,从而有效地在真实的网络故障时间点上命中网络故障,提升网络故障识别的准确性。
在一种可能的设计中,对于处于故障状态的任一监控模式,若所述监控模式对应的各预设指标的数量越多,则确定所述监控模式的故障等级越高;进一步地,对故障等级大于或等于预设故障等级的监控模式进行告警。
在上述设计中,通过基于监控模式对应的异常预设指标的数量来设置监控模式对应的故障的优先级,可以准确地对多种监控模式的故障等级进行划分,如此,通过按照故障的严重等级对监控模式进行排序,在灵活管理各类故障的同时,还可以快速识别出严重故障,提高故障处理的灵活性;且,通过将故障等级较低的监控模式滤除,可以仅将故障等级较高的监控模式告知给运维人员,从而可以降低运维人员的工作量,提高故障识别的效率,并能节省运营成本。
第二方面,本发明实施例提供的一种故障识别装置,所述装置包括:
获取模块,用于获取网络服务系统在预设时段内的网络状态数据;
处理模块,用于针对任一监控模式,根据所述监控模式对应的各预设指标在所述预设时段内的网络状态数据,确定所述各预设指标在所述预设时段内是否处于异常状态,并根据所述各预设指标在所述预设时段内的异常状态确定所述监控模式在所述预设时段内是否处于故障状态;
其中,任一监控模式对应的各预设指标是基于历史故障场景对应的历史网络状态数据中存在异常状态的预设指标确定的。
在一种可能的设计中,所述获取模块还用于:获取每个业务类型对应的历史网络状态数据;相应地,所述处理模块还用于:针对于任一业务类型,基于所述业务类型对应的历史网络状态数据确定与所述业务类型相关联的各个预设指标,并根据所述各个预设指标在所述业务类型中的每个历史故障场景所属的时段的异常状态,确定所述业务类型中的每个历史故障场景对应的各个预设指标;如此,针对每个业务类型中的任一历史故障场景设置对应的监控模式,并将所述历史故障场景对应的各个预设指标确定为所述监控模式对应的各预设指标。
在一种可能的设计中,任一预设指标由指标类型、指标类型所属的维度和指标状态构成;所述指标类型包括请求数或带宽、状态码、达标率、卡顿率中的任意一项或任意多项;所述请求数或带宽、所述达标率、所述卡顿率所属的维度包括边缘设备、中转设备、回源设备、源站中的任意一项或任意多项,所述状态码所属的维度包括正常码和/或异常码;所述指标状态包括上升和/或下降。
在一种可能的设计中,所述处理模块具体用于:若所述监控模式对应的各预设指标在所述预设时段内均处于异常状态,则确定所述监控模式在所述预设时段内处于故障状态,若所述监控模式对应的各预设指标中存在任意一项或任意多项在所述预设时段内处于正常状态,则确定所述监控模式在所述预设时段内处于正常状态。
在一种可能的设计中,所述处理模块还用于:对于处于故障状态的任一监控模式,若所述监控模式对应的各预设指标的数量越多,则确定所述监控模式的故障等级越高;所述装置还包括告警模块,所述告警模块用于:对故障等级大于或等于预设故障等级的监控模式进行告警。
第三方面,本发明实施例提供的一种计算设备,包括至少一个处理器以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述第一方面任一项所述的故障识别方法。
第四方面,本发明实施例提供的一种计算机可读存储介质,其存储有可由计算设备执行的计算机程序,当所述程序在所述计算设备上运行时,使得所述计算设备执行上述第一方面任一项所述的故障识别方法。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例适用的一种网络服务系统的架构示意图;
图2为本发明实施例提供的一种故障识别方法对应的流程示意图;
图3为本发明实施例提供的一种故障识别装置的结构示意图;
图4为本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例适用的一种网络服务系统的架构示意图,网络服务系统可以向至少一个客户端(比如客户端101、客户端102、客户端103和客户端104)提供网络服务,网络服务的类型可以有多种,比如对客户端发送的数据进行调度,或者为客户端发送的请求提供响应,等等。本发明实施例中,网络服务系统可以为域名系统(Domain Name System),或者也可以为内容分发网络(Content Delivery Network,CDN)系统,或者还可以为其它网络服务系统,具体不作限定。
如图1所示,网络服务系统中可以包括边缘设备200、至少一个回源设备(比如图1所示意的回源设备301、回源设备302和回源设备303)以及至少一个源站(比如图1所示意的源站401、源站402和源站403);其中,回源设备与源站可以对应设置,任一回源设备可以设置在边缘设备200和对应的源站之间,比如回源设备301与源站401对应设置,回源设备301设置在边缘设备200和源站401之间,回源设备302与源站402对应设置,回源设备302设置在边缘设备200和源站402之间,回源设备303与源站403对应设置,回源设备303设置在边缘设备200和源站403之间。
需要说明的是,上述仅是一种示例性的简单说明,并不构成对本方案的限定,具体实施中,回源设备与源站也可以按照其它方式对应设置,比如每个回源设备管理位于同一片区域的源站,或者不同的回源设备同时管理位于同一片区域的源站,等等。
如图1所示,客户端101~客户端104位于同一片区域,边缘设备200可以通过与客户端101~客户端104连接来实现对该片区域内的每个客户端的管理,客户端可以是指终端设备,比如手机、笔记本电脑、台式机等。其中,边缘设备200与任一客户端、边缘设备200与任一回源设备、对应设置的回源设备与源站之间可以通信连接,比如可以通过有线方式(网线、光纤等)实现连接,或者也可以通过无线方式(蓝牙、无线网络通信技术等)实现连接,具体不作限定。
具体实施中,客户端101~客户端104可以向网络服务系统传输数据或发送请求,并可以接收网络服务系统发送的响应消息。以发送请求为例,边缘设备200接收到客户端发送的请求后,可以先从边缘设备200的内存空间中查询是否存在请求对应的响应数据,若存在,则可以直接将响应数据发送给客户端,若不存在,则可以基于请求确定目标源站,然后将请求发送至目标源站对应的回源设备;相应地,回源设备接收到请求后,可以先从回源设备的内存空间中查询是否存在请求对应的响应数据,若存在,则可以直接将响应数据发送给边缘设备200,并经由边缘设备200传送给客户端,若不存在,则可以将请求发送给目标源站;相应地,目标源站接收到请求后,可以从目标源站的内存空间中查询是否存在请求对应的响应数据,若存在,则可以直接将响应数据发送给回源设备,并依次经由回源设备、边缘设备200传送给客户端,若不存在,则可以将查询失败的响应信息发送给回源设备,并依次经由回源设备、边缘设备200发送给客户端。
基于图1所示意的系统架构,图2为本发明实施例提供的一种故障识别方法对应的流程示意图,该方法可以应用于故障识别装置,故障识别装置可以设置在网络服务系统中,并与网络服务系统中的每个设备连接。如图2所示,该方法包括:
步骤201,获取网络服务系统在预设时段内的网络状态数据。
本发明实施例中,网络服务系统可以向至少一个客户端提供网络服务(对外服务),也可以向网络服务系统内部的各个设备提供网络服务(对内服务),因此,此处所述的网络状态数据可以是指网络服务系统向客户端提供网络服务的网络状态数据,或者也可以为网络服务系统内部运行的网络状态数据,具体不作限定。
以对外服务为例,在一种可能的实现方式中,故障识别装置可以实时监控网络服务系统向每个客户端提供网络服务的网络状态,并可以按照预设时段生成每个客户端对应的网络状态数据。其中,每个客户端对应的网络状态数据可以包括以下任意一种或任意多种:网络服务系统中的每个设备与该客户端之间传输请求的数量或每个设备向该客户端提供的带宽、每个传输请求的状态(比如正常状态或异常状态)、每个传输请求的响应时间;可以理解的,每个客户端对应的网络状态数据还可以包括其它信息,具体不作限定。
举例来说,如图1所示,若预设时段为5min(时间单位,分钟),则客户端101对应的网络状态数据包括在这5min的预设时段内,边缘设备200、回源设备301~回源设备303、源站401~源站403中的任一设备与客户端101之间传输请求的数量、每个传输请求为正常传输请求还是异常传输请求、每个传输请求的响应时间等数据。
步骤202,针对任一监控模式对应的各预设指标,根据所述各预设指标在所述预设时段内的网络状态数据,确定所述各预设指标在所述预设时段内是否处于异常状态,并根据所述各预设指标在所述预设时段内的异常状态确定所述监控模式在所述预设时段内是否处于故障状态。
其中,每个监控模式对应的各预设指标可以由历史网络状态数据与历史故障场景联合确定,其中,任一监控模式对应的各预设指标是指与该监控模式的故障状态强相关的预设指标的组合,也就是说,该监控模式对应的各预设指标的综合异常情况能够用于标识该监控模式的故障情况。
在一种可能的实现方式中,可以先获取网络服务系统的历史网络状态数据,然后从网络服务系统的历史网络状态数据中提取得到该网络服务系统中的多个指标,进一步地,针对于任一业务类型,可以基于该业务类型对应的历史网络状态数据从各个指标中确定出与该业务类型相关联的各个预设指标,然后根据与该业务类型相关联的各个预设指标在该业务类型中的每个历史故障场景所属的时段的异常状态,确定出该业务类型中的每个历史故障场景对应的各个预设指标;相应地,针对每个业务类型中的任一历史故障场景,可以设置一个与该历史故障场景对应的监控模式,并可以将该历史故障场景对应的各个预设指标确定为该监控模式对应的各预设指标。
本发明实施例中,网络服务系统中的多个指标可以被划分为通用指标和业务类型的特有指标,通用指标是指与各个业务类型均关联的指标,而业务类型的特有指标是指与对应业务类型关联的非通用指标;其中,通用指标可以包括带宽、状态码、请求数中的任意一项或任意多项,特有指标为根据业务类型特点设置的专门针对该业务的监控指标,不同业务类型的特有指标可以不同,例如特有指标可以包括达标率、卡顿率、错误率等。具体实施中,针对于任一业务类型,该业务类型相关联的各个预设指标可以包括通用指标和该业务类型的全部特有指标,如此,针对于该业务类型中的任一历史故障场景对应的监控模式,该监控模式对应的各预设指标可以为通用指标与该业务类型的任意一项或任意多项特有指标的组合。
举例来说,本发明实施例中的网络服务系统可以包括点播服务业务、网页服务业务和直播服务业务,当通用指标为带宽、状态码、请求数时,若分析点播服务业务对应的历史网络数据确定点播服务业务的特有指标包括错误率、首屏时间、卡顿率和点播达标率,则基于点播服务业务确定的监控模式对应的各预设指标可以包括带宽、状态码、请求数,以及错误率、首屏时间、卡顿率和点播达标率中的任意一项或任意多项;相应地,若分析网页服务业务对应的历史网络数据确定网页服务业务的特有指标包括传输速率、回上层传输率、首包响应时间和响应时间达标率,则基于网页服务业务确定的监控模式对应的各预设指标可以包括带宽、状态码、请求数,以及传输速率、回上层传输率、首包响应时间和响应时间达标率中的任意一项或任意多项;若分析直播服务业务对应的历史网络数据确定直播服务业务的特有指标包括卡顿率、错误率、首屏时间和在线人数,则基于直播服务业务确定的监控模式对应的各预设指标可以包括带宽、状态码、请求数,以及卡顿率、错误率、首屏时间和在线人数中的任意一项或任意多项。
在上述实现方式中,从业务类型对应的历史网络状态数据中提取得到业务类型的各个预设指标,并基于业务类型的历史故障场景确定业务类型中每种监控模式对应的各预设指标,能够使得监控模式与实际的业务类型相匹配,针对不同的业务类型组合不同的预设指标,如此,基于监控模式的故障识别方式能够区分不同业务类型中的故障,更加具有针对性,为故障分析处理提供更加明确的业务类型指引;且,通过从历史故障场景对应的历史网络状态数据中提炼出监控模式以及监控模式对应的各预设指标,使得监控模式对应的各预设指标的异常情况能够用于标识监控模式的故障情况,从而使得基于监控模式对应的各预设指标的综合情况所确定的监控模式的故障情况较为准确。
具体实施中,获取网络服务系统的历史网络状态数据后,可以先从历史网络状态数据中提炼出多种特征数据,然后根据多种特征数据的特征对多种特征数据进行分类汇总,从而得到网络服务系统中的各个指标。其中,每个指标可以由多个指标元素组成,多个指标元素包括指标类型、指标类型所属的维度和指标状态,或者也可以包括其它指标元素,不作限定。
表1为本发明实施例提供的一种指标与指标元素的对应关系表。
表1:一种指标与指标元素的对应关系
指标类型 指标类型所属的维度 指标状态
请求数/带宽 边缘;中转;回源;源站 上升/下降
状态码 正常码;异常码 上升/下降
达标率 边缘;中转;回源;源站 上升/下降
卡顿率 边缘;中转;回源;源站 上升/下降
其它 其它 /
表1示意出了四种指标,每种指标由指标类型、维度和指标状态构成,每种指标中的指标类型、指标类型所属的不同的维度和不同的指标状态均可以组合得到不同的预设指标。具体地说,指标类型为请求数/带宽的指标所属的维度可以为边缘设备、中转设备、回源设备、源站中的任意一种,指标状态可以为上升或下降;指标类型为状态码的指标所属的维度可以为正常码和异常码中的任意一种,指标状态可以为上升或下降;指标类型为达标率的指标所属的维度可以为边缘设备、中转设备、回源设备、源站中的任意一种,指标状态可以为上升或下降;指标类型为卡顿率的指标所属的维度可以为边缘设备、中转设备、回源设备、源站中的任意一种,指标状态可以为上升或下降。
需要说明的是,若从历史网络数据中提炼出的指标不属于上述四种指标中的任意一种,则可以将该指标归类为其它指标;本发明实施例中,指标类型、指标类型所属的维度以及其它指标均可以由本领域技术人员从实际业务场景中进行提取,具体不作限定。
本发明实施例中,对于任一指标,该指标的指标类型、指标类型所属的任一维度和任一指标状态均可以进行组合,从而每个指标可以对应组合为多种预设指标;比如指标类型为状态码的指标,由于状态码所属的维度为正常码或异常码,而状态码指标的状态为上升或下降,因此可以将组合状态码、异常码和上升得到的指标“预设时段内异常状态码的数量上升”作为一个预设指标,也可以将组合状态码、异常码和下降得到的指标“预设时段内异常状态码的数量下降”作为一个预设指标,还可以将组合状态码、正常码和下降得到的指标“预设时段内某一设备的正常状态码的数量下降”作为一个预设指标,也可以将组合状态码、正常码和上升得到的指标“预设时段内某一设备的正常状态码的数量上升”作为一个预设指标;又比如,指标类型为达标率的指标,由于达标率指标所属的维度为边缘设备、中转设备、回源设备、源站中的任意一个,而达标率指标的状态为上升或下降,因此可以将组合达标率、边缘设备和下降得到的指标“预设时段内边缘设备与客户端之间所传输的请求的达标率的数量下降”作为一个预设指标,也可以将组合达标率、边缘设备和上升得到的指标“预设时段内边缘设备与客户端之间所传输的请求的达标率的数量上升”作为一个预设指标,还可以将组合达标率、回源设备和下降得到的指标“预设时段内回源设备与客户端之间所传输的请求的达标率的数量下降”作为一个预设指标,等等。
在上述设计中,通过使用指标类型、指标类型所属的维度和指标状态构建每种指标,使得不同的预设指标能够由统一的指标标准来衡量,因此,通过组合不同的指标类型、指标类型所属的维度和指标状态即可得到不同的预设指标,如此,预设指标的种类和数量更为全面,通过对预设指标管理的灵活管理,也能提高基于各个预设指标识别故障的准确性。
进一步地,在确定网络服务系统中的各个预设指标后,可以基于网络服务系统中的每种业务类型在任一历史故障场景下的历史网络状态数据对各个预设指标进行分类汇总,从而得到多种监控模式及多种监控模式对应的各预设指标。具体地说,针对于任一业务类型中的任一历史故障场景,可以先分析确定每个预设指标在历史故障场景所属的各个时段的异常状态,然后以预设时间结点为基准,从各个预设指标中选取在同一预设时间节点内均处于异常状态的一个或多个预设指标,如此,一个或多个预设指标可以作为与该历史故障场景强相关的预设指标;最后,可以针对于该历史故障场景设置一个监控模式,并可以将该历史故障场景强相关的一个或多个预设指标作为该监控模式对应的各预设指标。
本发明实施例中,预设时间节点可以等于预设时段,或者也可以小于预设时段,具体不作限定。
举例来说,针对于点播服务业务对应的历史故障场景1和历史故障场景2,若通过分析历史故障场景1对应的历史网络状态数据发现,在历史故障场景1的预设时间节点内,预设指标1处于异常状态、预设指标2处于异常状态、预设指标3处于正常状态、预设指标4处于异常状态,通过分析历史故障场景2对应的历史网络状态数据发现,在历史故障场景2的预设时间节点内,预设指标1处于异常状态、预设指标2处于正常状态、预设指标3处于正常状态、预设指标4处于异常状态,则可以分别设置监控模式1和监控模式2,监控模式1与历史故障场景1相对应,监控模式1对应的各预设指标包括预设指标1、预设指标2和预设指标4;相应地,监控模式2与历史故障场景2相对应,监控模式2对应的各预设指标包括预设指标1和预设指标4。
表2为本发明实施例提供的该场景下监控模式与各预设指标的对应关系。
表2:一种监控模式对应的各预设指标的示意
监控模式 各预设指标
监控模式1 预设指标1、预设指标2和预设指标4
监控模式2 预设指标1和预设指标4
本发明实施例中,通过从历史故障场景对应的历史网络状态数据中提炼出监控模式以及监控模式对应的各预设指标,使得监控模式对应的各预设指标的异常情况能够用于标识监控模式的故障情况,从而使得基于监控模式对应的各预设指标的综合情况所确定的监控模式的故障情况较为准确。
在一个示例中,由于预设指标由指标类型、指标类型所属的维度和指标状态构成,因此还可以将监控模式对应的各预设指标设置为不同指标类型、指标类型所属的维度和指标状态的组合形式,如表3所示:
表3:一种监控模式对应的各预设指标的示意
Figure BDA0002254303600000141
如表3所示,本发明实施例中,每种监控模式可以对应两个或两个以上的预设指标,每个预设指标可以由指标类型、指标类型所属的维度和指标状态构成,当某一监控模式对应的各预设指标均处于异常状态时,说明该监控模式处于故障状态,当某一监控模式对应的各预设指标均处于正常状态时,说明该监控模式处于正常状态。
本发明实施例中,判断预设指标处于异常状态的条件可以由本领域技术人员根据经验进行设置,举例来说,预设指标处于异常状态的条件可以设置为预设指标的指标状态的变化量超过阈值,比如,若某一预设指标的指标类型为请求数/带宽、指标类型所属的维度为边缘、指标状态为上升,则当该预设指标中边缘设备的请求数/带宽在预设时段相比于上一时段的上升量大于或等于阈值时,可以确定该预设指标处于异常状态,当该预设指标中边缘设备的请求数/带宽在预设时段相比于上一时段的上升量小于阈值时,可以确定该预设指标处于正常状态。
其中,预设指标对应的阈值可以由本领域技术人员根据经验进行设置,或者也可以根据业务需要进行设置,不同预设指标对应的阈值可以相同,或者也可以不同,具体不作限定。
在上述示例中,通过使用不同预设指标对应的指标类型、指标类型所属的维度和指标状态组合监控模式和监控模式对应的各预设指标,可以更为灵活地管理监控模式对应的各预设指标,且该种方式更为清晰明确,从而可以简化故障识别的操作步骤,提高故障识别的处理效率。
本发明实施例中,在确定出多种监控模式以及多种监控模式分别对应的各预设指标后,可以基于每个监控模式对应的各预设指标确定每种监控模式的故障状态;具体地说,针对于任一监控模式,若该监控模式对应的各预设指标均处于异常状态,则可以确定该监控模式处于故障状态,若该监控模式对应的各预设指标中存在一个或多个预设指标处于正常状态,则可以确定该监控模式处于正常状态。举例来说,基于图1和表3,第一监控模式对应预设指标“预设时段内边缘设备的请求数/带宽的数量下降”和预设指标“预设时段内异常状态码的数量上升”,当请求数/带宽的数量下降量的阈值为15%,异常状态码的数量上升量的阈值为12%时,预设时段为10:00-10:05之间的5min的时段,若10:00-10:05的预设时段内边缘设备200向客户端101提供的请求数的数量相比于9:55-10:00的时段内下降了20%,且10:00-10:05的预设时段内请求数中异常状态码的数量相比于9:55-10:00的时段内上升了10%,则可以确定预设指标“预设时段内边缘设备的请求数/带宽的数量下降”处于异常状态,预设指标“预设时段内异常状态码的数量上升”处于正常状态,因此可以确定第一监控模式处于正常状态;相应地,第二监控模式对应预设指标“预设时段内回源设备的请求数/带宽的数量上升”和预设指标“预设时段内异常状态码的数量上升”,当请求数/带宽的数量上升量的阈值为15%,异常状态码的数量上升量的阈值为12%时,预设时段为10:00-10:05之间的5min的时段,若10:00-10:05的预设时段内回源设备301向客户端101提供的请求数的数量相比于9:55-10:00的时段内上升了20%,且请求数中异常状态码的数量相比于9:55-10:00的时段内上升了25%,则可以确定预设指标“预设时段内回源设备的请求数/带宽的数量上升”处于异常状态,预设指标“预设时段内异常状态码的数量上升”处于异常状态,因此可以确定第二监控模式处于故障状态。
本发明实施例中,单个预设指标处于异常状态时通常无法真正得命中网络故障,因此,通过设置每种监控模式对应的各预设指标,并基于组合的各预设指标综合分析该监控模式的故障情况,可以避免单一预设指标所造成的数据噪点,从而有效地在真实的网络故障时间点上命中网络故障,提升网络故障识别的准确性。
在一种可能的实现方式中,在确定出处于故障状态的各个故障监控模式后,还可以统计每个故障监控模式对应的各预设指标的数量,从而基于每个故障监控模式对应的预设指标的数量确定每个故障监控模式的故障等级;其中,监控模式对应的各预设指标的数量越多,则该监控模式的故障等级越高,监控模式对应的各预设指标的数量越少,则该监控模式的故障等级越低。
具体实施中,若设置故障监控模式的故障等级由低到高为:一级故障<二级故障<三级故障<四级故障,一级故障的故障监控模式的预设指标数量大于等于第一预设阈值且小于第二预设阈值,二级故障的故障监控模式的预设指标数量大于等于第二预设阈值且小于第三预设阈值,三级故障的故障监控模式的预设指标数量大于等于第三预设阈值且小于第四预设阈值,四级故障的故障监控模式的预设指标数量大于等于第四预设阈值,则针对于任一故障监控模式,若该故障监控模式对应的各预设指标的数量大于等于第一预设阈值且小于第二预设阈值,则可以确定该故障监控模式在预设时段内为一级故障,若该故障监控模式对应的各预设指标的数量大于等于第二预设阈值且小于第三预设阈值,则确定该故障监控模式在预设时段内为二级故障,若该故障监控模式对应的各预设指标的数量大于等于第三预设阈值且小于第四预设阈值,则确定该故障监控模式在预设时段内为三级故障,若该故障监控模式对应的各预设指标的数量大于等于第四预设阈值,则确定该故障监控模式在预设时段内为四级故障。其中,第一预设阈值<第二预设阈值<第三预设阈值<第四预设阈值,第一预设阈值、第二预设阈值、第三预设阈值和第四预设阈值可以由本领域技术人员根据经验进行设置,具体不作限定。
举例来说,若监控模式1对应的各预设指标包括预设指标2,监控模式2对应的各预设指标包括预设指标1和预设指标2,监控模式3对应的各预设指标包括预设指标1和预设指标3,监控模式4对应的各预设指标包括预设指标1、预设指标2和预设指标4,监控模式5对应的各预设指标包括预设指标1、预设指标2、预设指标3和预设指标4,则当监控模式1、监控模式2、监控模式3、监控模式4和监控模式5均处于故障状态时,监控模式5属于四级故障,监控模式4属于三级故障,监控模式2和监控模式3属于二级故障,监控模式1属于一级故障,监控模式5的故障程度最为严重,监控模式1的故障程度最轻。
需要说明的是,上述仅是一种示例性的简单说明,其所列举的故障等级的仅是为了便于说明方案,并不构成对方案的限定,在具体实施中,故障等级可以大于四级,比如可以为五级或五级以上。
在上述实现方式中,通过基于监控模式对应的异常预设指标的数量来设置监控模式对应的故障的优先级,可以准确地对多种监控模式的故障等级进行划分,如此,通过按照故障的严重等级对监控模式进行排序,在灵活管理各类故障的同时,还可以快速识别出严重故障,提高故障处理的灵活性。
在一个示例中,在确定出处于每种监控模式的故障等级后,该可以对故障等级大于预设故障等级的监控模式进行告警,具体实施中,可以先根据该监控模式的故障等级以及该监控模式对应的网络状态数据生成对应的告警数据,然后通过钉钉、微信、邮件等方式将告警数据发送给运维人员。在该示例中,通过将故障等级较低的监控模式滤除,可以仅将故障等级较高的监控模式告知给运维人员,一方面可以降低运维人员的工作量,提高故障识别的效率,节省运营成本,另一方面可以命中真实的故障,从而提高故障告警的准确性。
在一种可能的实现方式中,本发明实施例还可以基于监控模式和单指标模式共同对故障进行处理,具体实施中,在根据各个预设指标的异常状态确定出处于故障状态的监控模式后,由于监控模式相对于单指标来说故障程度更高,因此可以先将处于故障状态的监控模式对应的各预设指标发送给运维人员,再将处于异常状态的其它预设指标发送给运维人员,如此,运维人员可以基于接收到预设指标的顺序对预设指标进行维护;或者也可以设置处于故障状态的监控模式对应的各预设指标的优先级高于处于异常状态的其它预设指标,然后将处于异常状态的全部预设指标发送给运维人员,如此,运维人员可以基于各个预设指标的优先级对预设指标进行维护。
上述实现方式使用监控模式和单指标模式共同对故障进行处理,由于监控模式能够优先发现重大故障,单指标模式能够检测出任意异常的指标,从而上述方式在保证重大故障能被优先处理的基础上,完成了对可能出现的各个异常的故障识别,从而故障处理的准确性高,且故障处理的效果较好。
在一个示例中,还可以根据预设时段内的实际故障情况更新监控模式对应的各预设指标,比如当预设时段结束后,对于未命中而实际出现的故障,可以根据该故障对应的网络状态数据设置新的监控模式及新的监控模式对应的各预设指标,而对于命中而实际未出现的故障,则可以根据该故障对应的网络状态数据修正监控模式对应的各预设指标,等等。
本发明的上述实施例中,获取网络服务系统在预设时段内的网络状态数据,针对任一监控模式,根据所述监控模式对应的各预设指标在所述预设时段内的网络状态数据,确定所述各预设指标在所述预设时段内是否处于异常状态,并根据所述各预设指标在所述预设时段内的异常状态确定所述监控模式在所述预设时段内是否处于故障状态;其中,任一监控模式对应的各预设指标是基于历史故障场景对应的历史网络状态数据中存在异常状态的预设指标确定的。本发明实施例中,通过从历史故障场景对应的历史网络状态数据中提炼出监控模式以及监控模式对应的各预设指标,使得监控模式对应的各预设指标的异常情况能够用于标识监控模式的故障情况,从而使得基于监控模式对应的各预设指标的综合情况所确定的监控模式的故障情况较为准确,且,本发明实施例通过组合的各个预设指标识别故障,相比于现有技术采用单指标识别故障的方式来说,可以提高故障识别的效率,并能准确命中真实故障。
针对上述方法流程,本发明实施例还提供一种故障识别装置,该装置的具体内容可以参照上述方法实施。
图3为本发明实施例提供的一种故障识别装置300的结构示意图,包括:
获取模块310,用于获取网络服务系统在预设时段内的网络状态数据;
处理模块320,用于针对任一监控模式,根据所述监控模式对应的各预设指标在所述预设时段内的网络状态数据,确定所述各预设指标在所述预设时段内是否处于异常状态,并根据所述各预设指标在所述预设时段内的异常状态确定所述监控模式在所述预设时段内是否处于故障状态;
其中,任一监控模式对应的各预设指标是基于历史故障场景对应的历史网络状态数据中存在异常状态的预设指标确定的。
可选地,所述获取模块310还用于:
获取每个业务类型对应的历史网络状态数据;
所述处理模块320还用于:
针对于任一业务类型,基于所述业务类型对应的历史网络状态数据确定与所述业务类型相关联的各个预设指标,并根据所述各个预设指标在所述业务类型中的每个历史故障场景所属的时段的异常状态,确定所述业务类型中的每个历史故障场景对应的各个预设指标;
针对每个业务类型中的任一历史故障场景设置对应的监控模式,并将所述历史故障场景对应的各个预设指标确定为所述监控模式对应的各预设指标。
可选地,任一业务类型相关联的各个预设指标包括通用预设指标和特有预设指标,所述通用预设指标为各个业务类型均关联的预设指标,所述特有预设指标为与所述业务类型关联的预设指标;
所述处理模块320具体用于:
针对于所述业务类型中的任一历史故障场景,根据所述业务类型的各个特有预设指标在所述历史故障场景所属的时段的异常状态,从所述业务类型的各个特有预设指标中确定与所述历史故障场景相关的一个或多个特有预设指标;
将所述通用预设指标和所述一个或多个特有预设指标确定为所述历史故障场景对应的各个预设指标。
可选地,任一预设指标由指标类型、指标类型所属的维度和指标状态构成;
所述通用预设指标的指标类型包括带宽、请求数、状态码中的任意一项或任意多项,所述请求数或带宽所属的维度包括边缘设备、中转设备、回源设备、源站中的任意一项或任意多项,所述状态码所属的维度包括Shark状态码、Squid状态码和SC状态码中的任意一项或任意多项,所述指标状态包括上升和/或下降。
可选地,所述处理模块320具体用于:
若所述监控模式对应的各预设指标在所述预设时段内均处于异常状态,则确定所述监控模式在所述预设时段内处于故障状态,若所述监控模式对应的各预设指标中存在任意一项或任意多项在所述预设时段内处于正常状态,则确定所述监控模式在所述预设时段内处于正常状态。
可选地,所述处理模块320还用于:
对于处于故障状态的任一监控模式,若所述监控模式对应的各预设指标的数量越多,则确定所述监控模式的故障等级越高;
所述装置还包括告警模块330,所述告警模块330用于:
对故障等级大于或等于预设故障等级的监控模式进行告警。
从上述内容可以看出:本发明的上述实施例中,获取网络服务系统在预设时段内的网络状态数据,针对任一监控模式,根据所述监控模式对应的各预设指标在所述预设时段内的网络状态数据,确定所述各预设指标在所述预设时段内是否处于异常状态,并根据所述各预设指标在所述预设时段内的异常状态确定所述监控模式在所述预设时段内是否处于故障状态;其中,任一监控模式对应的各预设指标是基于历史故障场景对应的历史网络状态数据中存在异常状态的预设指标确定的。本发明实施例中,通过从历史故障场景对应的历史网络状态数据中提炼出监控模式以及监控模式对应的各预设指标,使得监控模式对应的各预设指标的异常情况能够用于标识监控模式的故障情况,从而使得基于监控模式对应的各预设指标的综合情况所确定的监控模式的故障情况较为准确,且,本发明实施例通过组合的各个预设指标识别故障,相比于现有技术采用单指标识别故障的方式来说,可以提高故障识别的效率,并能准确命中真实故障。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,其存储有可由计算设备执行的计算机程序,当所述程序在所述计算设备上运行时,使得所述计算设备执行图2任意所述的故障识别方法。
基于相同的技术构思,本发明实施例提供了一种计算设备,如图4所示,包括至少一个处理器401,以及与至少一个处理器连接的存储器402,本发明实施例中不限定处理器401与存储器402之间的具体连接介质,图4中处理器401和存储器402之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本发明实施例中,存储器402存储有可被至少一个处理器401执行的指令,至少一个处理器401通过执行存储器402存储的指令,可以执行前述的交互式运维的方法中所包括的步骤。
其中,处理器401是计算设备的控制中心,可以利用各种接口和线路连接计算设备的各个部分,通过运行或执行存储在存储器402内的指令以及调用存储在存储器402内的数据,从而实现数据处理。可选的,处理器401可包括一个或多个处理器,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理运维人员下发的指令。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。在一些实施例中,处理器401和存储器402可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器401可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合交互式运维的实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器402可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本发明实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种故障识别方法,其特征在于,所述方法包括:
获取网络服务系统在预设时段内的网络状态数据;
针对任一监控模式,根据所述监控模式对应的各预设指标在所述预设时段内的网络状态数据,确定所述各预设指标在所述预设时段内是否处于异常状态,并根据所述各预设指标在所述预设时段内的异常状态确定所述监控模式在所述预设时段内是否处于故障状态;
其中,任一监控模式对应的各预设指标是基于历史故障场景对应的历史网络状态数据中存在异常状态的预设指标确定的。
2.根据权利要求1所述的方法,其特征在于,通过如下方式确定每个监控模式对应的各预设指标:
获取每个业务类型对应的历史网络状态数据;
针对于任一业务类型,基于所述业务类型对应的历史网络状态数据确定与所述业务类型相关联的各个预设指标,并根据所述各个预设指标在所述业务类型中的每个历史故障场景所属的时段的异常状态,确定所述业务类型中的每个历史故障场景对应的各个预设指标;
针对每个业务类型中的任一历史故障场景设置对应的监控模式,并将所述历史故障场景对应的各个预设指标确定为所述监控模式对应的各预设指标。
3.根据权利要求2所述的方法,其特征在于,任一业务类型相关联的各个预设指标包括通用预设指标和特有预设指标,所述通用预设指标为各个业务类型均关联的预设指标,所述特有预设指标为与所述业务类型关联的非通用预设指标;
所述根据所述各个预设指标在所述业务类型中的每个历史故障场景所属的时段的异常状态,确定所述业务类型中的每个历史故障场景对应的各个预设指标,包括:
针对于所述业务类型中的任一历史故障场景,根据所述业务类型的各个特有预设指标在所述历史故障场景所属的时段的异常状态,从所述业务类型的各个特有预设指标中确定与所述历史故障场景相关的一个或多个特有预设指标;
将所述通用预设指标和所述一个或多个特有预设指标确定为所述历史故障场景对应的各个预设指标。
4.根据权利要求3所述的方法,其特征在于,任一预设指标由指标类型、指标类型所属的维度和指标状态构成;
所述通用预设指标的指标类型包括带宽、请求数、状态码中的任意一项或任意多项,所述请求数或带宽所属的维度包括边缘设备、中转设备、回源设备、源站中的任意一项或任意多项,所述状态码所属的维度包括Shark状态码、Squid状态码和SC状态码中的任意一项或任意多项,所述指标状态包括上升和/或下降。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据所述各预设指标在所述预设时段内的异常状态确定所述监控模式在所述预设时段内是否处于故障状态,包括:
若所述监控模式对应的各预设指标在所述预设时段内均处于异常状态,则确定所述监控模式在所述预设时段内处于故障状态,若所述监控模式对应的各预设指标中存在任意一项或任意多项在所述预设时段内处于正常状态,则确定所述监控模式在所述预设时段内处于正常状态。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
对于处于故障状态的任一监控模式,若所述监控模式对应的各预设指标的数量越多,则确定所述监控模式的故障等级越高;
对故障等级大于或等于预设故障等级的监控模式进行告警。
7.一种故障识别装置,其特征在于,所述装置包括:
获取模块,用于获取网络服务系统在预设时段内的网络状态数据;
处理模块,用于针对任一监控模式对应的各预设指标,根据所述各预设指标在所述预设时段内的网络状态数据,确定所述各预设指标在所述预设时段内是否处于异常状态,并根据所述各预设指标在所述预设时段内的异常状态确定所述监控模式在所述预设时段内是否处于故障状态;
其中,任一监控模式对应的各预设指标是基于历史故障场景对应的历史网络状态数据中存在异常状态的预设指标确定的。
8.根据权利要求7所述的装置,其特征在于,所述获取模块还用于:
获取每个业务类型对应的历史网络状态数据;
所述处理模块还用于:
针对于任一业务类型,基于所述业务类型对应的历史网络状态数据确定与所述业务类型相关联的各个预设指标,并根据所述各个预设指标在所述业务类型中的每个历史故障场景所属的时段的异常状态,确定所述业务类型中的每个历史故障场景对应的各个预设指标;
针对每个业务类型中的任一历史故障场景设置对应的监控模式,并将所述历史故障场景对应的各个预设指标确定为所述监控模式对应的各预设指标。
9.一种计算设备,其特征在于,包括至少一个处理器以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1~6任一权利要求所述的方法。
10.一种计算机可读存储介质,其特征在于,其存储有可由计算设备执行的计算机程序,当所述程序在所述计算设备上运行时,使得所述计算设备执行权利要求1~6任一权利要求所述的方法。
CN201911046704.1A 2019-10-30 2019-10-30 一种故障识别方法及装置 Active CN110784355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911046704.1A CN110784355B (zh) 2019-10-30 2019-10-30 一种故障识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911046704.1A CN110784355B (zh) 2019-10-30 2019-10-30 一种故障识别方法及装置

Publications (2)

Publication Number Publication Date
CN110784355A true CN110784355A (zh) 2020-02-11
CN110784355B CN110784355B (zh) 2022-03-08

Family

ID=69387883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911046704.1A Active CN110784355B (zh) 2019-10-30 2019-10-30 一种故障识别方法及装置

Country Status (1)

Country Link
CN (1) CN110784355B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112637680A (zh) * 2020-12-18 2021-04-09 努比亚技术有限公司 一种显示帧率处理控制方法、设备及计算机可读存储介质
CN112954372A (zh) * 2021-01-26 2021-06-11 北京达佳互联信息技术有限公司 流媒体故障监测方法及装置
CN113242443A (zh) * 2021-05-28 2021-08-10 北京达佳互联信息技术有限公司 数据流传输的异常检测方法及其装置
CN113541979A (zh) * 2020-04-14 2021-10-22 中国移动通信集团浙江有限公司 基于时序数据的故障动态预测方法、装置及计算设备
CN114095339A (zh) * 2021-10-29 2022-02-25 北京百度网讯科技有限公司 一种报警处理方法、装置、设备以及存储介质
CN114143223A (zh) * 2020-08-13 2022-03-04 贵州白山云科技股份有限公司 一种带宽异常检测方法、装置、介质及设备
CN115134246A (zh) * 2021-03-22 2022-09-30 中国移动通信集团河南有限公司 网络性能指标监控方法、装置、设备和存储介质
CN116132270A (zh) * 2022-12-27 2023-05-16 中国联合网络通信集团有限公司 故障检测方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991145A (zh) * 2017-03-23 2017-07-28 中国银联股份有限公司 一种监测数据的方法及装置
CN107204894A (zh) * 2017-05-18 2017-09-26 华为技术有限公司 网络业务质量的监控方法及装置
CN108805359A (zh) * 2018-06-15 2018-11-13 新奥泛能网络科技有限公司 一种故障预判方法及装置
CN109815084A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 异常识别方法、装置和电子设备及存储介质
CN110245053A (zh) * 2019-06-20 2019-09-17 中国工商银行股份有限公司 故障预测诊断方法及系统
CN110311802A (zh) * 2019-05-17 2019-10-08 网宿科技股份有限公司 网络运营方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991145A (zh) * 2017-03-23 2017-07-28 中国银联股份有限公司 一种监测数据的方法及装置
CN107204894A (zh) * 2017-05-18 2017-09-26 华为技术有限公司 网络业务质量的监控方法及装置
CN108805359A (zh) * 2018-06-15 2018-11-13 新奥泛能网络科技有限公司 一种故障预判方法及装置
CN109815084A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 异常识别方法、装置和电子设备及存储介质
CN110311802A (zh) * 2019-05-17 2019-10-08 网宿科技股份有限公司 网络运营方法、装置、电子设备及存储介质
CN110245053A (zh) * 2019-06-20 2019-09-17 中国工商银行股份有限公司 故障预测诊断方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆悠等: "面向网络状态的自适应用户行为评估方法", 《通信学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113541979B (zh) * 2020-04-14 2023-04-28 中国移动通信集团浙江有限公司 基于时序数据的故障动态预测方法、装置及计算设备
CN113541979A (zh) * 2020-04-14 2021-10-22 中国移动通信集团浙江有限公司 基于时序数据的故障动态预测方法、装置及计算设备
CN114143223B (zh) * 2020-08-13 2023-11-21 贵州白山云科技股份有限公司 一种带宽异常检测方法、装置、介质及设备
CN114143223A (zh) * 2020-08-13 2022-03-04 贵州白山云科技股份有限公司 一种带宽异常检测方法、装置、介质及设备
CN112637680A (zh) * 2020-12-18 2021-04-09 努比亚技术有限公司 一种显示帧率处理控制方法、设备及计算机可读存储介质
CN112954372A (zh) * 2021-01-26 2021-06-11 北京达佳互联信息技术有限公司 流媒体故障监测方法及装置
CN112954372B (zh) * 2021-01-26 2022-08-26 北京达佳互联信息技术有限公司 流媒体故障监测方法及装置
CN115134246B (zh) * 2021-03-22 2023-07-21 中国移动通信集团河南有限公司 网络性能指标监控方法、装置、设备和存储介质
CN115134246A (zh) * 2021-03-22 2022-09-30 中国移动通信集团河南有限公司 网络性能指标监控方法、装置、设备和存储介质
CN113242443B (zh) * 2021-05-28 2022-09-30 北京达佳互联信息技术有限公司 数据流传输的异常检测方法及其装置
CN113242443A (zh) * 2021-05-28 2021-08-10 北京达佳互联信息技术有限公司 数据流传输的异常检测方法及其装置
CN114095339A (zh) * 2021-10-29 2022-02-25 北京百度网讯科技有限公司 一种报警处理方法、装置、设备以及存储介质
CN114095339B (zh) * 2021-10-29 2023-08-08 北京百度网讯科技有限公司 一种报警处理方法、装置、设备以及存储介质
CN116132270A (zh) * 2022-12-27 2023-05-16 中国联合网络通信集团有限公司 故障检测方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN110784355B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN110784355B (zh) 一种故障识别方法及装置
CN110213068B (zh) 一种消息中间件的监控方法及相关设备
CN110704231A (zh) 一种故障处理方法及装置
RU2017111477A (ru) Способы и системы для определения нестандартной пользовательской активности
CN110740061B (zh) 故障预警方法、装置及计算机存储介质
CN110232010A (zh) 一种告警方法、告警服务器及监控服务器
CN113190423B (zh) 业务数据的监控方法、装置及系统
CN111355610A (zh) 一种基于边缘网络的异常处理方法及装置
CN109977089A (zh) 日志管理方法、装置、计算机设备及计算机可读存储介质
CN110674014A (zh) 一种确定异常查询请求的方法及装置
CN108492150B (zh) 实体热度的确定方法及系统
CN112737800A (zh) 服务节点故障定位方法、调用链生成方法及服务器
CN111651595A (zh) 一种异常日志处理方法及装置
CN111984495A (zh) 一种大数据监控方法、装置和存储介质
CN111338888B (zh) 一种数据统计方法、装置、电子设备及存储介质
CN113992602B (zh) 一种电缆监测数据上传方法、装置、设备以及存储介质
CN112969172A (zh) 一种基于云手机的通讯流量控制方法
CN109462510B (zh) 一种cdn节点质量评估的方法及装置
CN106161058B (zh) 一种告警分级方法及装置
KR102464688B1 (ko) 모니터링 결과의 이벤트 등급 결정 방법 및 장치
CN113472881B (zh) 在线终端设备的统计方法和装置
CN115438244A (zh) 一种数据库健康度评估方法及装置
CN113807697A (zh) 基于告警关联的派单方法及装置
CN109508356B (zh) 数据异常预警方法、装置、计算机设备及存储介质
CN112199207A (zh) 一种报警信息推送方法、装置、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant