CN108011752B - 故障定位分析方法及装置、计算机可读存储介质 - Google Patents

故障定位分析方法及装置、计算机可读存储介质 Download PDF

Info

Publication number
CN108011752B
CN108011752B CN201711164911.8A CN201711164911A CN108011752B CN 108011752 B CN108011752 B CN 108011752B CN 201711164911 A CN201711164911 A CN 201711164911A CN 108011752 B CN108011752 B CN 108011752B
Authority
CN
China
Prior art keywords
fault
edge server
user access
feature
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711164911.8A
Other languages
English (en)
Other versions
CN108011752A (zh
Inventor
陈卫华
康凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Tianlian Information Technology Development Co ltd
Original Assignee
Jiangsu Tianlian Information Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Tianlian Information Technology Development Co ltd filed Critical Jiangsu Tianlian Information Technology Development Co ltd
Priority to CN201711164911.8A priority Critical patent/CN108011752B/zh
Publication of CN108011752A publication Critical patent/CN108011752A/zh
Application granted granted Critical
Publication of CN108011752B publication Critical patent/CN108011752B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Abstract

一种故障定位分析方法及装置、计算机可读存储介质,所述故障定位分析方法包括:在接收到故障报告后,筛选出与故障相关的用户访问日志;获取与所述筛选出的用户访问日志关联的关联日志;从所述筛选出的用户访问日志以及所述关联日志中,提取出与故障相关的特征字段信息,并将所有提取出的特征字段信息组合以生成组合分析结果;在预设的故障特征库中,查找所述组合分析结果对应的故障原因。上述方案能够提高故障定位分析处理效率以及准确率。

Description

故障定位分析方法及装置、计算机可读存储介质
技术领域
本发明实施例涉及网络多媒体数据传输领域,尤其涉及一种故障定位分析方法及装置、计算机可读存储介质。
背景技术
内容分发网络(Content Delivery Network,CDN)是构建在网络之上的内容分发网络。CDN系统依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。
用户在访问CDN系统的边缘服务器时,会产生大量的用户访问日志,包括Nginx日志、ATS日志等。CDN系统在提供服务的过程中,难免会出现故障,对用户访问日志进行分析,是分析出现故障原因的主要途径。
现有技术中,当有用户报障时,维护人员登录到出现故障的边缘服务器,提取故障发生时间段内的用户访问日志,通过命令脚本统计分析日志结果,定位故障产生的原因。上述故障定位分析方法处理效率低下,故障分析定位的准确率较低。
发明内容
本发明实施例解决的是如何提高故障定位分析处理效率以及准确率的问题。
为解决上述技术问题,本发明实施例提供一种故障定位分析方法,包括:在接收到故障报告后,筛选出与故障相关的用户访问日志;获取与所述筛选出的用户访问日志关联的关联日志;从所述筛选出的用户访问日志以及所述关联日志中,提取出与故障相关的特征字段信息,并将所有提取出的特征字段信息组合以生成组合分析结果;在预设的故障特征库中,查找所述组合分析结果对应的故障原因。
可选的,所述筛选出与故障相关的用户访问日志,包括:根据报障URL确定存在故障的边缘服务器;从所述存在故障的边缘服务器中,选取预设时间内错误状态码数量最多的边缘服务器作为特征边缘服务器;从所述特征边缘服务器对应的用户访问日志中,选取出现次数最多的错误状态码,作为主要错误状态码;将所述预设时间划分为N个时间段,选取出所述主要错误状态码出现次数最多的时间段作为特征时间段;以所述特征时间段为基准,从所述特征边缘服务器对应的用户访问日志中,筛选出故障最多的URL;根据所述故障最多的URL、所述特征边缘服务器、所述主要错误状态码,从所述特征边缘服务器对应的用户访问日志中,筛选出存在故障的用户访问日志。
可选的,所述错误状态码包括以下任一种:错误状态码403、错误状态码404、错误状态码502、错误状态码503;其中:所述错误状态码403对应的故障原因包括以下至少一种:连接限制导致、防盗链导致、节点缓存导致、源站错误导致;所述错误状态码404对应的故障原因包括以下至少一种:插件错误导致、配置错误导致、节点缓存导致、源站文件丢失导致;所述错误状态码502对应的故障原因包括以下至少一种:本地DNS错误导致、上级节点网络异常导致、节点缓存导致、源站错误导致;所述错误状态码503对应的故障原因包括以下至少一种:熔断机制导致、节点缓存导致、源站错误导致。
可选的,所述获取所述筛选出的用户访问日志关联的关联日志,包括:获取所述特征边缘服务器对应的所有上层节点边缘服务器,从所述所有上层节点边缘服务器中筛选出与所述筛选出的用户访问日志对应的关联日志。
可选的,所述获取所述特征边缘服务器对应的所有上层节点边缘服务器,包括:递归查询所述特征边缘服务器对应的上一层节点边缘服务器,直至递归至顶级节点边缘服务器或伪源节点边缘服务器;将所有递归得到的上层节点边缘服务器作为所述特征边缘服务器对应的上层节点边缘服务器。
可选的,所述将所有提取出的特征字段信息组合以生成组合分析结果,包括:将所述所有提取出的特征字段信息两两组合,生成组合分析结果。
本发明实施例还提供了一种故障定位分析装置,包括:用户访问日志筛选单元,用于在接收到故障报告后,筛选出与故障相关的用户访问日志;关联日志获取单元,用于获取与所述筛选出的用户访问日志关联的关联日志;提取单元,用于从所述筛选出的用户访问日志以及所述关联日志中,提取出与故障相关的特征字段信息;组合单元,用于将所有提取出的特征字段信息组合以生成组合分析结果;查找单元,用于在预设的故障特征库中,查找所述组合分析结果对应的故障原因。
可选的,所述用户访问日志筛选单元,用于根据报障URL确定存在故障的边缘服务器;从所述存在故障的边缘服务器中,选取预设时间内错误状态码数量最多的边缘服务器作为特征边缘服务器;从所述特征边缘服务器对应的用户访问日志中,选取出现次数最多的错误状态码,作为主要错误状态码;将所述预设时间划分为N个时间段,选取出所述主要错误状态码出现次数最多的时间段作为特征时间段;以所述特征时间段为基准,从所述特征边缘服务器对应的用户访问日志中,筛选出故障最多的URL;根据所述故障最多的URL、所述特征边缘服务器、所述主要错误状态码,从所述特征边缘服务器对应的用户访问日志中,筛选出存在故障的用户访问日志。
可选的,所述关联日志获取单元,用于获取所述特征边缘服务器对应的所有上层节点边缘服务器,从所述所有上层节点边缘服务器中筛选出与所述筛选出的用户访问日志对应的关联日志。
可选的,所述关联日志获取单元,用于递归查询所述特征边缘服务器对应的上一层节点边缘服务器,直至递归至顶级节点边缘服务器或伪源节点边缘服务器;将所有递归得到的上层节点边缘服务器作为所述特征边缘服务器对应的上层节点边缘服务器。
可选的,所述组合单元,用于将所述所有提取出的特征字段信息两两组合,生成组合分析结果。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一种所述的故障定位分析方法的步骤。
本发明实施例还提供了另一种故障定位分析装置,包括存储器和处理器,所述存储器上存储有计算机指令,所述计算机指令运行时执行上述任一种所述的故障定位分析方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
根据筛选出的与故障相关的用户访问日志以及相关联的关联日志,提取出与故障相关的特征字段信息,并将特征字段信息组合生成组合分析结果。根据组合分析结果,在故障特征库中查找对应的故障原因。在故障分析定位过程中,无需维护人员手动进行操作,因此可以提高故障定位分析的效率。在整个故障分析定位过程中,没有人为干预因素影响,可以提高故障分析定位的准确率。
进一步,在筛选与故障相关的用户访问日志时,在一台特征边缘服务器中,根据特征时间段内出现故障最多的URL以及主要错误状态码,从特征边缘服务器对应的所有用户访问日志中筛选出与故障相关的用户访问日志,可以有效降低筛选与故障相关的关联日志对应的数据量,从而降低筛选过程的时长,进一步提高故障分析定位的效率。
附图说明
图1是本发明实施例中的一种故障定位分析方法的流程图;
图2是本发明实施中的一种查找故障原因的流程图;
图3是本发明实施例中的一种故障定位分析装置的结构示意图。
具体实施方式
现有技术中,当有用户报障时,维护人员登录到出现故障的边缘服务器,提取故障发生时间段内的用户访问日志,通过命令脚本统计分析日志结果,定位故障产生的原因。在进行故障定位分析的过程中,耗费较多的人力成本和时间成本,处理效率低下。此外,在分析日志结果时,依赖于维护人员个人的专业知识和能力,不同的维护人员得出的分析结果可能存在较大差异,人工干预易对分析结果造成干扰。
在本发明实施例中,在故障分析定位过程中,无需维护人员手动进行操作,因此可以提高故障定位分析的效率。在整个故障分析定位过程中,没有人为干预因素影响,可以提高故障分析定位的准确率。
为使本发明实施例的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
本发明实施例提供了一种故障定位分析方法,参照图1,以下通过具体步骤进行详细说明。
步骤S101,在接收到故障报告后,筛选出与故障相关的用户访问日志。
在具体实施中,在接收到故障报告后,可以根据报障URL来确定可能存在故障的边缘服务器。根据所确定可能存在故障的边缘服务器,从中筛选出与故障相关的用户访问日志。
在具体实施中,在根据报障URL确定可能存在故障的边缘服务器之后,可以从中选取一个边缘服务器作为特征边缘服务器。在本发明实施例中,可以在预设时间内,选取错误状态码数量最多的边缘服务器作为特征边缘服务器。
在具体实施中,可以根据故障报告的分布,来确定预设时间。通常情况下,可以将报障时间设定为故障报告分布最密集的时间区域。例如,检测到在19:00~20:00之间,故障报告分布最密集,则在19:00~20:00之间,选取错误状态码数量最多的边缘服务器作为特征边缘服务器。
在实际应用中可知,错误状态码可以包括错误状态码403、错误状态码404、错误状态码502以及错误状态码503。分别计算所确定可能存在故障的边缘服务器各自对应的上述四种错误状态码的总数量,从中选择错误状态码数量最多的边缘服务器作为特征边缘服务器。
在确定特征边缘服务器之后,根据特征边缘服务器中错误状态码的分布,从中选取出现次数最多的错误状态码作为主要错误状态码。例如,确定特征边缘服务器为边缘服务器1,边缘服务器1中,错误状态码403出现的次数为A1,错误状态码404出现的次数为A2,错误状态码502出现的次数为A3,错误状态码503出现的次数为A4,且A1最大。因此,选择错误状态码403作为主要错误状态码。
在确定了特征边缘服务器以及主要错误状态码之后,可以将预设时间划分成N个时间段,选取出现主要错误状态码次数最多的时间段作为特征时间段。
在具体实施中,可以将预设时间等分为N个时间段。例如,预设时间为19:00~20:00,将预设时间等分为12个时间段,此时,每一个时间段对应的时长为5分钟。获取每一个时长为5分钟的时间段对应的主要错误状态码的个数,并从中选取主要错误状态码次数最多的时间段作为特征时间段。
在确定特征时间段之后,以特征时间段为时间基准,从特征边缘服务器对应的用户访问日志中,筛选出故障出现次数最多的URL。之后,根据故障最多的URL以及主要错误状态码,从特征边缘服务器对应的用户访问日志中,筛选出存在故障的用户访问日志。
也就是说,在本发明实施例中,筛选出的与故障相关的用户访问日志是在特征边缘服务器中选取的,且由主要错误状态码以及故障最多的URL确定,因此,在选取与故障相关的用户访问日志时,只在一个边缘服务器中选取,因此可以降低筛选与故障相关的用户访问日志时所需处理的数据量,进而提高故障定位分析的效率。
步骤S102,获取与所述筛选出的用户访问日志关联的关联日志。
在具体实施中,在筛选出与故障相关的用户访问日志之后,即可在CDN系统中,获取筛选出的用户访问日志对应的关联日志。在本发明实施例中,关联日志存在于特征边缘服务器对应的上层节点边缘服务器中,且关联日志可以是指:在特征边缘服务器对应的上层节点边缘服务器中,与步骤S101中筛选出的用户访问日志存在相同故障原因的用户访问日志。
在具体实施中,可以先从CDN系统中获取特征边缘服务器对应的上层节点边缘服务器。在获取特征边缘服务器对应的上层节点边缘服务器时,可以递归查询特征边缘服务器对应的上一层节点边缘服务器,直至递归至顶级节点边缘服务器或者伪源节点边缘服务器。之后,将递归得到的所有上层节点边缘服务器作为特征边缘服务器对应的上层节点边缘服务器。
在确定上层节点边缘服务器之后,即可从中获取关联日志。
步骤S103,从所述筛选出的用户访问日志以及所述关联日志中,提取出与故障相关的特征字段信息,并将所有提取出的特征字段信息组合以生成组合分析结果。
在实际应用中,与故障相关的特征字段信息可以包括缓存状态码、上层响应码、上层IP等。在具体实施中,可以从筛选出的用户访问日志以及关联日志中,提取出与缓存状态码、上层响应码、上层IP等特征字段信息。在提取出特征字段信息后,将提取出的特征字段信息进行组合,得到组合分析结果。
在将特征字段信息进行组合时,可以将不同种类的特征字段信息两两组合,得到组合分析结果。例如,提取出的特征字段信息中,包括10个缓存状态码以及10个上层响应码,则得到的组合分析结果的总数为10×10=100个。
可以理解的是,在具体应用中,还可以存在其他的组合方式,以将特征字段信息进行组合,此处不做赘述。
步骤S104,在预设的故障特征库中,查找所述组合分析结果对应的故障原因。
在具体实施中,在获取到组合分析结果后,可以根据查表的方式,在预设的故障特征库中,查找组合分析结果对应的故障原因。
例如,得到的组合分析结果的总数为100个,则在故障特征库中,查找100个组合分析结果分别对应的故障原因。
在实际应用中,可能部分组合分析结果在故障特征库中没有查找到相应的故障原因,此时,意味着上述组合分析结果为不存在故障。
在实际应用中可知,CDN系统在提供服务的过程中,发生的故障对应的错误状态码可以包括以下任一种:错误状态码403、错误状态码404、错误状态码502以及错误状态码503。
当故障对应的错误状态码为错误状态码403时,对应的导致故障的原因可以包括如下至少一种:连接限制导致、防盗链导致、节点缓存导致、源站错误导致等。
当故障对应的错误状态码为错误状态码404时,对应的导致故障的原因可以包括如下至少一种:插件错误导致、配置错误导致、节点缓存导致、源站文件丢失导致等。
当故障对应的错误状态码为错误状态码502时,对应的导致故障的原因可以包括如下至少一种:本地域名系统(Domain Name System,DNS)错误导致、上级节点网络异常导致、节点缓存导致、源站错误导致等。
当故障对应的错误状态码为错误状态码503时,对应的导致故障的原因可以包括如下至少一种:熔断机制导致、节点缓存导致、源站错误导致等。
下面以主要错误状态码为错误状态码403为例,对本发明上述实施例中提供的步骤S104进行说明。
步骤S200,主要错误状态码为错误状态码403。
步骤S201,判断特征字段1的字段值是否为“-”。当特征字段1的字段值为“-”时,执行步骤S202;当特征字段1的字段值不是“-”时,执行步骤S203。
步骤S202,判定故障原因为连接限制导致。
步骤S203,判断特征字段2的字段值是否为000。
当特征字段2的字段值是000时,执行步骤S204;反之,当特征字段2的字段值不是000时,执行步骤S209。
步骤S204,判断特征字段1的字段值是否包含MISS缓存码。当特征字段1的字段值包含MISS缓存码时,执行步骤S205;当特征字段1的字段值不包含MISS缓存码时,执行步骤S206。
步骤S205,判定故障原因为防盗链导致。
步骤S206,判断特征字段1的字段值是否包含ERROR缓存码。当特征字段1的字段值包含ERROR缓存码时,执行包括S207;反之,当特征字段1的字段值不包含ERROR缓存码时,执行步骤S208。
步骤S207,判定故障原因为防盗链导致。
步骤S208,判定故障原因为节点缓存导致。
步骤S209,判断特征字段3是否为缓存IP。当特征字段3不是缓存IP时,执行步骤S210;当特征字段3是缓存IP时,重新执行步骤S203。
步骤S210,判定故障原因为源站错误导致。
采用步骤S201~步骤S210,即可获知在主要错误状态码为错误状态码403时,导致故障的具体原因。
由此可见,根据筛选出的与故障相关的用户访问日志以及相关联的关联日志,提取出与故障相关的特征字段信息,并将特征字段信息组合生成组合分析结果。根据组合分析结果,在故障特征库中查找对应的故障原因。在故障分析定位过程中,无需维护人员手动进行操作,因此可以提高故障定位分析的效率。在整个故障分析定位过程中,没有人为干预因素影响,可以提高故障分析定位的准确率。
参照图3,给出了本发明实施例中的一种故障定位分析装置30,包括:用户访问日志筛选单元301、关联日志获取单元302、提取单元303、组合单元304以及查找单元305,其中:
所述用户访问日志筛选单元301,用于在接收到故障报告后,筛选出与故障相关的用户访问日志;
所述关联日志获取单元302,用于获取与所述筛选出的用户访问日志关联的关联日志;
所述提取单元303,用于从所述筛选出的用户访问日志以及所述关联日志中,提取出与故障相关的特征字段信息;
所述组合单元304,用于将所有提取出的特征字段信息组合以生成组合分析结果;
所述查找单元305,用于在预设的故障特征库中,查找所述组合分析结果对应的故障原因。
在具体实施中,所述用户访问日志筛选单元301,可以用于根据报障URL确定存在故障的边缘服务器;从所述存在故障的边缘服务器中,选取预设时间内错误状态码数量最多的边缘服务器作为特征边缘服务器;从所述特征边缘服务器对应的用户访问日志中,选取出现次数最多的错误状态码,作为主要错误状态码;将所述预设时间划分为N个时间段,选取出所述主要错误状态码出现次数最多的时间段作为特征时间段;以所述特征时间段为基准,从所述特征边缘服务器对应的用户访问日志中,筛选出故障最多的URL;根据所述故障最多的URL、所述特征边缘服务器、所述主要错误状态码,从所述特征边缘服务器对应的用户访问日志中,筛选出存在故障的用户访问日志。
可选的,所述关联日志获取单元302,可以用于获取所述特征边缘服务器对应的所有上层节点边缘服务器,从所述所有上层节点边缘服务器中筛选出与所述筛选出的用户访问日志对应的关联日志。
可选的,所述关联日志获取单元302,可以用于递归查询所述特征边缘服务器对应的上一层节点边缘服务器,直至递归至顶级节点边缘服务器或伪源节点边缘服务器;将所有递归得到的上层节点边缘服务器作为所述特征边缘服务器对应的上层节点边缘服务器。
可选的,所述组合单元304,可以用于将所述所有提取出的特征字段信息两两组合,生成组合分析结果。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行本发明上述任一实施例中提供的故障定位分析方法的步骤,此处不做赘述。
本发明实施例还提供了另一种故障定位分析装置,包括存储器和处理器,所述存储器上存储有计算机指令,所述计算机指令运行时执行本发明上述任一实施例中提供的故障分析方法的步骤,此处不做赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指示相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (11)

1.一种故障定位分析方法,其特征在于,包括:
在接收到故障报告后,筛选出与故障相关的用户访问日志,包括:根据报障URL确定存在故障的边缘服务器;从所述存在故障的边缘服务器中,选取预设时间内错误状态码数量最多的边缘服务器作为特征边缘服务器;从所述特征边缘服务器对应的用户访问日志中,选取出现次数最多的错误状态码,作为主要错误状态码;将所述预设时间划分为N个时间段,选取出所述主要错误状态码出现次数最多的时间段作为特征时间段;以所述特征时间段为基准,从所述特征边缘服务器对应的用户访问日志中,筛选出故障最多的URL;根据所述故障最多的URL、所述特征边缘服务器、所述主要错误状态码,从所述特征边缘服务器对应的用户访问日志中,筛选出存在故障的用户访问日志;获取与所述筛选出的用户访问日志关联的关联日志;
从所述筛选出的用户访问日志以及所述关联日志中,提取出与故障相关的特征字段信息,并将所有提取出的特征字段信息组合以生成组合分析结果;
在预设的故障特征库中,查找所述组合分析结果对应的故障原因。
2.如权利要求1所述的故障定位分析方法,其特征在于,所述错误状态码包括以下任一种:错误状态码403、错误状态码404、错误状态码502、错误状态码503;其中:
所述错误状态码403对应的故障原因包括以下至少一种:连接限制导致、防盗链导致、节点缓存导致、源站错误导致;
所述错误状态码404对应的故障原因包括以下至少一种:插件错误导致、配置错误导致、节点缓存导致、源站文件丢失导致;
所述错误状态码502对应的故障原因包括以下至少一种:本地DNS错误导致、上级节点网络异常导致、节点缓存导致、源站错误导致;
所述错误状态码503对应的故障原因包括以下至少一种:熔断机制导致、节点缓存导致、源站错误导致。
3.如权利要求1所述的故障定位分析方法,其特征在于,所述获取所述筛选出的用户访问日志关联的关联日志,包括:
获取所述特征边缘服务器对应的所有上层节点边缘服务器,从所述所有上层节点边缘服务器中筛选出与所述筛选出的用户访问日志对应的关联日志。
4.如权利要求3所述的故障定位分析方法,其特征在于,所述获取所述特征边缘服务器对应的所有上层节点边缘服务器,包括:
递归查询所述特征边缘服务器对应的上一层节点边缘服务器,直至递归至顶级节点边缘服务器或伪源节点边缘服务器;
将所有递归得到的上层节点边缘服务器作为所述特征边缘服务器对应的上层节点边缘服务器。
5.如权利要求1所述的故障定位分析方法,其特征在于,所述将所有提取出的特征字段信息组合以生成组合分析结果,包括:
将所述所有提取出的特征字段信息两两组合,生成组合分析结果。
6.一种故障定位分析装置,其特征在于,包括:
用户访问日志筛选单元,用于在接收到故障报告后,筛选出与故障相关的用户访问日志,包括:根据报障URL确定存在故障的边缘服务器;从所述存在故障的边缘服务器中,选取预设时间内错误状态码数量最多的边缘服务器作为特征边缘服务器;从所述特征边缘服务器对应的用户访问日志中,选取出现次数最多的错误状态码,作为主要错误状态码;将所述预设时间划分为N个时间段,选取出所述主要错误状态码出现次数最多的时间段作为特征时间段;以所述特征时间段为基准,从所述特征边缘服务器对应的用户访问日志中,筛选出故障最多的URL;根据所述故障最多的URL、所述特征边缘服务器、所述主要错误状态码,从所述特征边缘服务器对应的用户访问日志中,筛选出存在故障的用户访问日志;
关联日志获取单元,用于获取与所述筛选出的用户访问日志关联的关联日志;提取单元,用于从所述筛选出的用户访问日志以及所述关联日志中,提取出与故障相关的特征字段信息;
组合单元,用于将所有提取出的特征字段信息组合以生成组合分析结果;
查找单元,用于在预设的故障特征库中,查找所述组合分析结果对应的故障原因。
7.如权利要求6所述的故障定位分析装置,其特征在于,所述关联日志获取单元,用于获取所述特征边缘服务器对应的所有上层节点边缘服务器,从所述所有上层节点边缘服务器中筛选出与所述筛选出的用户访问日志对应的关联日志。
8.如权利要求7所述的故障定位分析装置,其特征在于,所述关联日志获取单元,用于递归查询所述特征边缘服务器对应的上一层节点边缘服务器,直至递归至顶级节点边缘服务器或伪源节点边缘服务器;将所有递归得到的上层节点边缘服务器作为所述特征边缘服务器对应的上层节点边缘服务器。
9.如权利要求6所述的故障定位分析装置,其特征在于,所述组合单元,用于将所述所有提取出的特征字段信息两两组合,生成组合分析结果。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1~5任一项所述的故障定位分析方法的步骤。
11.一种故障定位分析装置,包括存储器和处理器,所述存储器上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1~5任一项所述的故障定位分析方法的步骤。
CN201711164911.8A 2017-11-21 2017-11-21 故障定位分析方法及装置、计算机可读存储介质 Expired - Fee Related CN108011752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711164911.8A CN108011752B (zh) 2017-11-21 2017-11-21 故障定位分析方法及装置、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711164911.8A CN108011752B (zh) 2017-11-21 2017-11-21 故障定位分析方法及装置、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108011752A CN108011752A (zh) 2018-05-08
CN108011752B true CN108011752B (zh) 2020-06-16

Family

ID=62053027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711164911.8A Expired - Fee Related CN108011752B (zh) 2017-11-21 2017-11-21 故障定位分析方法及装置、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108011752B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597613A (zh) * 2018-06-12 2019-12-20 成都鼎桥通信技术有限公司 任务处理方法、装置、设备及计算机可读存储介质
CN109388623A (zh) * 2018-11-02 2019-02-26 郑州云海信息技术有限公司 一种设备故障检测的方法、系统及相关组件
CN109218113B (zh) * 2018-11-07 2021-09-24 吉林工程技术师范学院 通信网络故障定位方法及故障监测装置
CN109640127A (zh) * 2018-12-30 2019-04-16 北京奇艺世纪科技有限公司 内容分发网络的故障定位方法及装置
CN111444081B (zh) * 2019-01-17 2023-05-02 阿里巴巴集团控股有限公司 确定、响应和生成方法、客户端、服务器、设备和介质
CN110190983B (zh) * 2019-04-18 2022-05-10 网宿科技股份有限公司 一种网络问题分析方法及装置
CN110162420B (zh) * 2019-04-26 2022-10-11 平安科技(深圳)有限公司 数据辅助定位方法、装置、计算机设备及存储介质
CN110971694A (zh) * 2019-12-03 2020-04-07 广州乐摇摇信息科技有限公司 自助设备参数的远程控制方法及装置
KR102333681B1 (ko) * 2020-02-26 2021-12-01 주식회사 케이티앤지 에어로졸 생성 장치의 오류를 분석하는 장치 및 그 시스템
CN112187511A (zh) * 2020-08-28 2021-01-05 苏州浪潮智能科技有限公司 一种定位微服务熔断异常的方法、系统、设备及介质
CN112291085B (zh) * 2020-10-10 2023-01-20 北京金山云网络技术有限公司 一种故障定位方法、装置、设备及介质
CN112600715B (zh) * 2020-12-25 2023-02-03 青岛海尔科技有限公司 配网操作的分析方法及装置、存储介质、电子装置
CN113691405B (zh) * 2021-08-25 2023-12-01 北京知道创宇信息技术股份有限公司 一种访问异常诊断方法、装置、存储介质及电子设备
CN114490751A (zh) * 2021-12-29 2022-05-13 深圳优地科技有限公司 机器人故障的确定方法、装置、设备以及可读存储介质
CN115396282B (zh) * 2022-07-20 2024-03-15 北京奇艺世纪科技有限公司 信息处理方法、系统及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095052A (zh) * 2014-05-22 2015-11-25 阿里巴巴集团控股有限公司 Soa环境下的故障检测方法及装置
CN107147526A (zh) * 2017-05-12 2017-09-08 上海携程商务有限公司 智能网络故障检测方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101359959A (zh) * 2008-09-17 2009-02-04 中兴通讯股份有限公司 一种用于故障定位分析的信息获取方法
CN103596208B (zh) * 2013-11-15 2017-02-15 大唐移动通信设备有限公司 一种网元故障判断方法及系统
CN103701926B (zh) * 2013-12-31 2017-06-16 小米科技有限责任公司 一种获取故障原因信息的方法、装置和系统
CN104657622A (zh) * 2015-03-12 2015-05-27 浪潮集团有限公司 一种基于事件驱动分析的集群故障分析方法
CN106844170B (zh) * 2015-12-04 2021-03-19 创新先进技术有限公司 一种故障处理、分析故障的影响面方法和设备
CN105471659B (zh) * 2015-12-25 2019-03-01 华为技术有限公司 一种故障根因分析方法和分析设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095052A (zh) * 2014-05-22 2015-11-25 阿里巴巴集团控股有限公司 Soa环境下的故障检测方法及装置
CN107147526A (zh) * 2017-05-12 2017-09-08 上海携程商务有限公司 智能网络故障检测方法及系统

Also Published As

Publication number Publication date
CN108011752A (zh) 2018-05-08

Similar Documents

Publication Publication Date Title
CN108011752B (zh) 故障定位分析方法及装置、计算机可读存储介质
US10592327B2 (en) Apparatus, system, and method for analyzing logs
CN107085549B (zh) 故障信息生成的方法和装置
US20190197071A1 (en) System and method for evaluating nodes of funnel model
CN105743730A (zh) 为移动终端的网页服务提供实时监控的方法及其系统
US10360090B2 (en) Determination method, determination apparatus, and recording medium
US20230094834A1 (en) Fault Detection Method and Device of Live Stream Service, Electronic Device, and Readable Storage Medium
US20180095819A1 (en) Incident analysis program, incident analysis method, information processing device, service identification program, service identification method, and service identification device
CN111190807A (zh) 一种埋点测试方法及设备
CN108880838B (zh) 业务故障的监控方法及装置、计算机设备及可读介质
CN104182327A (zh) 客户端错误日志收集方法及系统
CN111628878A (zh) 基于多级网络节点的故障定位方法、装置及系统
US10445213B2 (en) Non-transitory computer-readable storage medium, evaluation method, and evaluation device
CN111371570A (zh) 一种nfv网络的故障检测方法及装置
CN110602483B (zh) 视频故障确定方法、装置及计算机可读存储介质
CN106528569B (zh) 计算站内搜索有效度的方法及装置
US20100251025A1 (en) Operation management system, process analyzing apparatus, recording medium in which process analysis program is recorded, and process analysis method
KR101589914B1 (ko) 실시간 웹 사이트 성능 측정 방법 및 시스템
CN110968779A (zh) 网页信息爬取的处理方法和装置
CN115168217A (zh) 源代码文件的缺陷发现方法及装置
US11487746B2 (en) Business impact analysis
CN109995886A (zh) 域名识别方法、装置、设备及介质
US20230011129A1 (en) Log analyzer for fault detection
JP2013092977A (ja) 業務ログ抽出装置
CN113031995A (zh) 一种更新规则的方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200616

Termination date: 20211121