CN106130786A - 一种网络故障的检测方法及装置 - Google Patents

一种网络故障的检测方法及装置 Download PDF

Info

Publication number
CN106130786A
CN106130786A CN201610597081.7A CN201610597081A CN106130786A CN 106130786 A CN106130786 A CN 106130786A CN 201610597081 A CN201610597081 A CN 201610597081A CN 106130786 A CN106130786 A CN 106130786A
Authority
CN
China
Prior art keywords
network node
information
content delivery
delivery network
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610597081.7A
Other languages
English (en)
Other versions
CN106130786B (zh
Inventor
魏帆
叶嘉梁
唐瞻立
胡泽锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610597081.7A priority Critical patent/CN106130786B/zh
Publication of CN106130786A publication Critical patent/CN106130786A/zh
Application granted granted Critical
Publication of CN106130786B publication Critical patent/CN106130786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery

Abstract

本发明实施例公开了网络故障的检测方法及装置,应用于通信技术领域。在本实施例的方法中,故障检测服务器会获取客户端在内容分发网络系统中的网络通信信息,然后将网络通信信息与预置的故障模型库进行匹配,如果与第一故障模型的描述信息相匹配,即网络通信信息中多个参数的数值分别在第一故障模型的描述信息中相应的各参数的数值范围内,则通信故障为第一故障模型,并对相应的内容分发网络节点进行告警。与现有技术中人工分析故障原因相比,本发明实施例中由于通过收集的信息与故障模型库的匹配,就可以得知当前的通信故障属于哪一类型的故障,可以快速且准确地分析出故障原因。

Description

一种网络故障的检测方法及装置
技术领域
本发明涉及通信技术领域,特别涉及一种网络故障的检测方法及装置。
背景技术
内容分发网络(Content Delivery Network,CDN)是将源站的内容发布到最接近用户设备的边缘节点,使得用户设备可以就近取得所访问的内容,提高用户访问的响应速度和成功率,其中,可以将边缘节点称为CDN节点。
现有技术中,如果监控系统检测到CDN节点故障,需要通过人工定位分析,来分析出故障原因,然后进行告警,这样耗费时间较多;且监控系统提供给运维人员分析故障原因的数据比较简单,如延迟,丢包率和故障机器的网络协议地址等,这样人工定位分析出的故障原因的准确率不是很高。
发明内容
本发明实施例提供一种网络故障的检测方法及装置,实现了将获取的网络通信信息与预置的故障模型库进行匹配,以对内容分发网络节点的故障原因进行检测。
本发明实施例提供一种网络故障的检测方法,包括:
获取如下至少一个网络通信信息:客户端与内容分发网络节点之间的通信信息,内容分发网络节点的性能信息和调度信息;
如果所述客户端与内容分发网络节点的通信故障,将所述获取的网络通信信息与预置的故障模型库进行匹配,所述预置的故障模型库中包括多个故障模型的描述信息;
如果所述网络通信信息中多个参数的数值分别在第一故障模型的描述信息中相应的各参数的数值范围内,确定所述通信故障属于第一故障模型;
根据所述确定的第一故障模型对所述网络通信信息对应的内容分发网络节点进行告警。
本发明实施例还提供一种网络故障的检测装置,包括:
信息获取单元,用于获取如下至少一个网络通信信息:客户端与内容分发网络节点之间的通信信息,内容分发网络节点的性能信息和调度信息;
匹配单元,用于如果所述客户端与内容分发网络节点的通信故障,将所述获取的网络通信信息与预置的故障模型库进行匹配,所述预置的故障模型库中包括多个故障模型的描述信息;
模型确定单元,用于如果所述网络通信信息中多个参数的数值分别在第一故障模型的描述信息中相应的各参数的数值范围内,确定所述通信故障属于第一故障模型;
告警单元,用于根据所述确定的第一故障模型对所述网络通信信息对应的内容分发网络节点进行告警。
可见,在本实施例的方法中,故障检测服务器会获取客户端在内容分发网络系统中的网络通信信息,然后将网络通信信息与预置的故障模型库进行匹配,如果与第一故障模型的描述信息相匹配,即网络通信信息中多个参数的数值分别在第一故障模型的描述信息中相应的各参数的数值范围内,则通信故障为第一故障模型,并对相应的内容分发网络节点进行告警。与现有技术中人工分析故障原因相比,本发明实施例中由于通过收集的信息与故障模型库的匹配,就可以得知当前的通信故障属于哪一类型的故障,可以快速且准确地分析出故障原因。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种对内容分发网络系统进行故障检测的结构示意图;
图2是本发明实施例提供的一种网络故障的检测方法的流程图;
图3是本发明应用实施例提供的一种网络故障的检测方法的流程图;
图4是本发明实施例提供的一种网络故障的检测装置的结构示意图;
图5是本发明实施例提供的另一种网络故障的检测装置的结构示意图;
图6是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供一种网络故障的检测方法,主要是由故障检测服务器对内容分发网络系统的故障进行检测,如图1所示,在内容分发网络系统中包括客户端,多个内容分发网络节点和源站,其中,当客户端需要访问源站时,可以通过访问距离客户端较近的内容分发网络节点,从而实现对源站的访问;内容分发网络节点主要是将源站的内容分发给客户端;故障检测服务器用于收集内容分发网络系统的通信信息,并对收集的通信信息进行分析,如果客户端与内容分发网络节点之间的通信故障时,分析得到故障原因。
本实施例的方法是故障检测服务器所执行的方法,流程图如图2所示,包括:
步骤101,获取如下至少一个网络通信信息:客户端与内容分发网络节点之间的通信信息,内容分发网络节点的性能信息和调度信息等。
可以理解,用户通过客户端访问源站时,可以通过访问距离客户端较近的内容分发网络节点,由内容分发网络节点将源站的内容分发给客户端。在客户端访问内容分发网络节点的过程中,客户端可以将这个过程中所用到的信息上报给故障检测服务器,具体可以包括客户端与内容分发网络节点之间的通信信息,比如客户端的网络协议(InternetProtocol,IP)地址,内容分发网络节点的IP地址,客户端向内容分发网络节点的请求时延和请求状态码等信息。
其中,客户端的IP地址是故障检测服务器从客户端向故障检测服务器上报信息的消息头中提取得到;内容分发网络节点的IP地址是当客户端向内容分发网络节点发送请求时,由内容分发网络节点将该请求发送给源站,这样源站可以从内容分发网络节点发送的请求头中得到内容分发网络节点的IP地址,然后返回给客户端,并由客户端上报给故障检测服务器;客户端向内容分发网络节点的请求时延和请求状态码等信息可以从客户端的测速脚本中得到。
内容分发网络节点的性能信息是故障检测服务器直接从各个内容分发网络节点的监控系统中获取到,是指内容分发网络节点在运行过程中机器的参数数值,比如中央处理器(Central Processing Unit,CPU)的使用率,磁盘输入输出(input output,IO)的频率,出入流量等信息。
内容分发网络节点的调度信息是指源站对各个内容分发网络节点调度的信息,比如将客户端的网络请求调度给哪些内容分发网络节点进行处理等信息,可以从内容分发网络系统的监控系统中获取得到。
步骤102,如果客户端与内容分发网络节点的通信故障,将步骤101获取的网络通信信息与预置的故障模型库进行匹配。
在预置的故障模型库中包括多个故障模型的描述信息,例如,分布式拒绝服务(Distributed Denial of Service,DDOS)攻击的描述信息包括某一时间段与其前一时间段(即攻击中与攻击前)内容分发网络节点的流量差范围为大于预置差值或流量比范围为大于预置比值,攻击中内容分发网络节点的时延较高,高于预置的第一时延值的时延范围,内容分发网络节点的CPU的使用率范围为大于预置的使用率及磁盘IO的频率范围为高于预置的频率值等描述信息。又例如,调度异常的描述信息包括:内容分发网络节点的时延较高,高于预置的第二时延值的时延范围,而该内容分发网络节点处理的请求存在大量跨域跨运营商调度,比如内容分发网络节点处理的请求n%以上,或处理的m条以上请求都存在跨域或跨运营商调度,比如发起请求的客户端是广东电信,而内容分发网络节点为北京联通等。内容分发网络节点的CPU使用率过高或内存使用率过高的描述信息包括:内容分发网络节点的时延较高,高于预置的第三时延值,客户端的请求成功率下降,比如低于预置的成功率50%。出入流量过大的描述信息包括:内容分发网络节点的时延较高,高于预置的第四时延值,客户端的请求成功率下降,比如低于预置的成功率50%等。其中,上述预置的第一时延值到第四时延值可以相同,也可以不同。
该预置的故障模型库是需要故障检测服务器事先创建,在创建的过程中,故障检测服务器可以储存多个故障模型的描述信息,在每个故障模型的描述信息中包括如下至少一个维度的参数的数值:客户端与内容分发网络节点之间的通信信息维度,内容分发网络节点的性能信息维度和调度信息维度等。
需要说明的是,本实施例的故障检测服务器可以根据获取的客户端与内容分发网络节点的通信信息,从而确定客户端与内容分发网络节点的通信是否故障。为了使得故障检测服务器不会重复对相同的通信故障进行检测,如果客户端与内容分发网络节点的通信故障时,需要先判断是否对该通信故障的故障原因进行检测,如果是,才会执行步骤102到104。具体地,故障检测服务器可以判断该通信故障与之前的其它通信故障是否是同一个通信故障,比如判断是否是在预置的时间段内,同一个客户端和同一个内容分发网络节点之间的通信故障等。
步骤103,如果步骤101获取的网络通信信息与第一故障模型的描述信息相匹配,即网络通信信息中多个参数的数值分别在第一故障模型的描述信息中相应的各参数的数值范围内,则确定客户端与内容分发网络节点的通信故障属于第一故障模型。
具体可以包括但不限于如下几种情况:
一种情况下,如果步骤101获取的网络通信信息包括:与客户端通信的第一内容分发网络节点在某一时间段与其前一时间段的流量差和流量比;第一内容分发网络节点的时延值,中央处理器的使用率和磁盘输入输出的频率。则如果第一内容分发网络节点在某一时间段与其前一时间段内的流量差值大于预置差值,或流量比大于预置比值;第一内容分发网络节点的时延值高于预置的第一时延值;第一内容分发网络节点的中央处理器的使用率大于预置的使用率;及第一内容分发网络节点的磁盘输入输出的频率高于预置的频率值,说明网络通信信息与分布式拒绝服务攻击的模型的描述信息相匹配,确定通信故障属于分布式拒绝服务攻击的模型。
另一种情况下,如果步骤101获取的网络通信信息包括:与客户端通信的第二内容分发网络节点处理的跨域或跨运营商的请求的百分比或数量,和第二内容分发网络节点的时延值。则如果第二内容分发网络节点的时延值大于预置的第二时延值,及第二内容分发网络节点处理的跨域或跨营运商的请求的百分比大于n%或跨域或跨营运商的请求的数量大于m,说明网络通信信息与调度异常的模型的描述信息相匹配,确定通信故障属于调度异常的模型。
又一种情况下,如果步骤101获取的网络通信信息包括:第三内容分发网络节点的时延值,及与第三内容分发网络节点通信的客户端的请求成功率。则如果第三内容分发网络节点的时延值大于预置的第三时延值,和/或与第三内容分发网络节点通信的客户端的请求成功率低于预置的成功率,说明网络通信信息与内容分发网络节点的中央处理器的使用率过高,或内存使用率过高,或出入流量过高的模型的描述信息相匹配,确定通信故障属于内容分发网络节点的中央处理器的使用率过高,或内存使用率过高,或出入流量过高的模型。
步骤104,根据确定的第一故障模型对网络通信信息对应的内容分发网络节点进行告警,具体地,可以发送告警信息给内容分发网络节点的运维管理设备等,比如可以发送第一故障模型的信息进行告警,这样内容分发网路节点的运维人员就可以根据告警信息进行相应地维护处理。
进一步地,在预置的故障模型库中不仅可以包括各个故障模型的描述信息,还可以包括各个故障模型的解决方案信息,这样故障检测服务器在进行告警时,不仅可以发送客户端与内容分发网络节点的通信故障为第一故障模型的信息;还可以发送该第一故障模型对应的解决方案信息;且还可以发送内容分发网络节点的异常信息即上述与第一故障模型的描述信息一致的网络通信信息,比如延迟数值,丢包率数值,具体内容分发网络节点的IP地址等给对应内容分发网络节点的运维管理设备,以便于运维人员更直观地获得对内容分发网络节点的维护处理方案。比如对于DDOS攻击的模型对应的解决方案为剔除故障的内容分发网络节点等。
进一步地,在告警操作之后,故障检测服务器还可以将网络通信信息与第一故障模型的描述信息进行合并,形成第一故障模型的新描述信息,并用新描述信息替换预置的故障模型库中第一故障模型的描述信息。特别地,对于第一故障模型的描述信息中的参数数值与网络通信信息的合并,故障检测服务器可以计算根据上述步骤101获取的网络通信信息得到的参数数值,与第一故障模型的描述信息中对应的参数数值的加权平均值,得到对应的新参数数值。这样根据实际网络通信信息可以校准故障模型库,使得故障原因的检测更准确。
可见,在本实施例的方法中,故障检测服务器会获取客户端在内容分发网络系统中的网络通信信息,然后将网络通信信息与预置的故障模型库进行匹配,如果与第一故障模型的描述信息相匹配,即网络通信信息中多个参数的数值分别在第一故障模型的描述信息中相应的各参数的数值范围内,则通信故障为第一故障模型,并对相应的内容分发网络节点进行告警。与现有技术中人工分析故障原因相比,本发明实施例中由于通过收集的信息与故障模型库的匹配,就可以得知当前的通信故障属于哪一类型的故障,可以快速且准确地分析出故障原因。
参考图3所示,以下以一个具体的实施例来说明本发明的网络故障的检测方法,具体包括:
步骤201,客户端发送请求给内容分发网络节点,以请求访问源站的内容,在这个过程中,客户端会将与内容分发网络节点的通信信息上报给故障检测服务器,具体可以包括客户端的IP地址,内容分发网络节点的IP地址和请求时延等。
步骤202,故障检测服务器会根据客户端上报的通信信息,检测客户端与内容分发网络节点的通信是否故障,如果通信故障,则执行步骤203。
步骤203,判断是否需要建立一个异常单,即判断是否要对该通信故障的故障原因进行检测,这样可以防止对同一通信故障进行重复检测,如果需要建立,则执行步骤204,如果不需要则结束流程。
步骤204,获取网络通信信息,其中可以包括客户端与内容分发网络节点的通信信息,内容分发网络节点的性能信息及调度信息。
在具体的实施例中,获取的网络通信信息可以包括:与客户端通信的某一内容分发网络节点在某一时间段与其前一时间段的流量差和流量比;该内容分发网络节点的时延值,中央处理器的使用率和磁盘输入输出的频率。且还可以包括内容分发网络节点处理的跨域或跨运营商的请求的百分比或数量,及与内容分发网络节点通信的客户端的请求成功率等。
步骤205,故障检测服务器将步骤204获取的网络通信信息与预置的故障模型库进行匹配,如果获取的网络通信信息与故障模块库中第一故障模型的描述信息相匹配,则执行步骤206,如果未找到与网络通信信息相匹配的故障模型,则执行步骤207。
具体地,如果某一内容分发网络节点在某一时间段与其前一时间段内的流量差值大于预置差值,或流量比大于预置比值;该内容分发网络节点的时延值高于预置的第一时延值;该内容分发网络节点的中央处理器的使用率大于预置的使用率;及该内容分发网络节点的磁盘输入输出的频率高于预置的频率值,说明网络通信信息与分布式拒绝服务攻击的模型的描述信息相匹配,确定通信故障属于分布式拒绝服务攻击的模型。
如果某一内容分发网络节点的时延值大于预置的第二时延值,及该内容分发网络节点处理的跨域或跨营运商的请求的百分比大于n%或跨域或跨营运商的请求的数量大于m,说明网络通信信息与调度异常的模型的描述信息相匹配,确定通信故障属于调度异常的模型。
如果某一内容分发网络节点的时延值大于预置的第三时延值,和/或与该内容分发网络节点通信的客户端的请求成功率低于预置的成功率,说明网络通信信息与内容分发网络节点的中央处理器的使用率过高,或内存使用率过高,或出入流量过高的模型的描述信息相匹配,确定通信故障属于内容分发网络节点的中央处理器的使用率过高,或内存使用率过高,或出入流量过高的模型。
步骤206,向对应的内容分发网络节点的运维管理设备发送第一告警信息,该第一告警信息包括与第一故障模型的描述信息相匹配的网络通信信息,即通信故障的异常信息,还可以包括该通信故障为第一故障模型的指示信息,还可以包括第一故障模型的解决方案信息等。
步骤207,向对应的内容分发网络节点的运维管理设备发送第二告警信息,该第二告警信息用于指示通信故障为未知故障。
本发明实施例还提供一种网络故障的检测装置,比如上述的故障检测服务器,其结构示意图如图4所示,具体可以包括:
信息获取单元10,用于获取如下至少一个网络通信信息:客户端与内容分发网络节点之间的通信信息,内容分发网络节点的性能信息和调度信息。
匹配单元11,用于如果所述客户端与内容分发网络节点的通信故障,将所述信息获取单元10获取的网络通信信息与预置的故障模型库进行匹配,所述预置的故障模型库中包括多个故障模型的描述信息。
模型确定单元12,用于根据匹配单元11的匹配结果,如果所述网络通信信息中多个参数的数值分别在第一故障模型的描述信息中相应的各参数的数值范围内,确定所述通信故障属于第一故障模型。
具体可以包括但不限于如下几种情况:
一种情况下,所述信息获取单元10获取的网络通信信息包括:与客户端通信的第一内容分发网络节点在某一时间段与其前一时间段的流量差和流量比;所述第一内容分发网络节点的时延值,中央处理器的使用率和磁盘输入输出的频率。所述模型确定单元12,具体用于所述第一内容分发网络节点在某一时间段与其前一时间段内的流量差值大于预置差值,或流量比大于预置比值;所述第一内容分发网络节点的时延值高于预置的第一时延值;所述第一内容分发网络节点的中央处理器的使用率大于预置的使用率;及所述第一内容分发网络节点的磁盘输入输出的频率高于预置的频率值,确定所述通信故障属于分布式拒绝服务攻击的模型。
另一种情况下,所述信息获取单元10获取的网络通信信息包括:与客户端通信的第二内容分发网络节点处理的跨域或跨运营商的请求的百分比或数量,所述第二内容分发网络节点的时延值。所述模型确定单元12,具体用于所述第二内容分发网络节点的时延值大于预置的第二时延值,及所述第二内容分发网络节点处理的跨域或跨营运商的请求的百分比大于n%或跨域或跨营运商的请求的数量大于m,则确定所述通信故障属于调度异常的模型。
又一种情况下,所述信息获取单元获取的网络通信信息包括:第三内容分发网络节点的时延值,与所述第三内容分发网络节点通信的客户端的请求成功率。所述模型确定单元12,具体用于所述第三内容分发网络节点的时延值大于预置的第三时延值,和/或与所述第三内容分发网络节点通信的客户端的请求成功率低于预置的成功率,确定所述通信故障属于内容分发网络节点的中央处理器的使用率过高,或内存使用率过高,或出入流量过高的模型。
告警单元17,用于根据所述模型确定单元12确定的第一故障模型对所述网络通信信息对应的内容分发网络节点进行告警。
具体地,如果所述故障模型库中还可以各个故障模型的解决方案信息;则所述告警单元17,具体用于将所述客户端与内容分发网络节点的通信故障为第一故障模型的信息,及对应的解决方案信息发送给对应内容分发网络节点的运维管理设备。且还可以将与所述第一故障模型的描述信息相匹配的网络通信信息等发送给运维管理设备。
可见,在本发明实施例的装置中,信息获取单元10会获取客户端在内容分发网络系统中的网络通信信息,然后匹配单元11将网络通信信息与预置的故障模型库进行匹配,如果与第一故障模型的描述信息相匹配,即网络通信信息中多个参数的数值分别在第一故障模型的描述信息中相应的各参数的数值范围内,则通信故障为第一故障模型,并由告警单元17对相应的内容分发网络节点进行告警。与现有技术中人工分析故障原因相比,本发明实施例中由于通过收集的信息与故障模型库的匹配,就可以得知当前的通信故障属于哪一类型的故障,可以快速且准确地分析出故障原因。
参考图5所示,在一个具体的实施例中,网络故障的检测装置除了可以包括如图4所示的结构外,还可以包括判断单元13,合并单元14,替换单元15和创建单元16,其中:
判断单元13,用于如果所述客户端与内容分发网络节点的通信故障,判断是否对所述通信故障的故障原因进行检测,如果是,通知所述匹配单元11执行所述匹配的步骤。
合并单元14,用于将所述网络通信信息与所述第一故障模型的描述信息进行合并,形成所述第一故障模型的新描述信息;
替换单元15,用于用所述合并单元14形成的新描述信息替换所述故障模型库中所述第一故障模型的描述信息。
创建单元16,用于储存多个故障模型的描述信息,以创建所述预置的故障模型库,其中,每个故障模型的描述信息包括如下至少一个维度的参数的数值:客户端与内容分发网络节点之间的通信信息维度,内容分发网络节点的性能信息维度和调度信息维度。
具体地,创建单元16创建的故障模型库中包括多个如下的故障模型的描述信息:分布式拒绝服务攻击的模型,调度异常的模型,及内容分发网络节点的中央处理器的使用率过高,或内存使用率过高,或出入流量过高的模型;
其中,所述分布式拒绝服务攻击的模型的描述信息包括:内容分发网络节点在某一时间段与其前一时间段内的流量差值范围为大于预置差值,或流量比范围为大于预置比值;内容分发网络节点的时延范围为高于预置的第一时延值;内容分发网络节点的中央处理器的使用率范围为大于预置的使用率;及内容分发网络节点的磁盘输入输出的频率范围为高于预置的频率值;
所述调度异常的模型的描述信息包括:内容分发网络节点的时延范围为高于预置的第二时延值,及内容分发网络节点处理的跨域或跨运营商的请求的百分比范围为大于n%,或跨域或跨运营商的请求的数量范围为大于m;
内容分发网络节点的中央处理器的使用率过高,或内存使用率过高,或出入流量过高的模型的描述信息包括:内容分发网络节点的时延范围为高于预置的第三时延值,和/或与内容分发网络节点通信的客户端的请求成功率范围为低于预置的成功率。
本实施例中,如果判断单元13在确定客户端与内容分发网络节点的通信故障,则会判断是否需要对该通信故障的故障原因进行检测,如果是,则判断单元13会通知匹配单元11执行匹配的操作,然后由告警单元17进行告警。且在本实施例的装置中,可以通过创建单元16创建故障模型库,且当匹配单元11在匹配到获取的网络通信信息与第一故障模型的描述信息相匹配,则可以通过合并单元14得到第一故障模型的新描述信息,然后由替换单元15替换创建单元16创建的故障模型库中第一故障模型的描述信息。
本发明实施例还提供一种服务器,比如上述的故障检测服务器,其结构示意图如图6所示,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)20(例如,一个或一个以上处理器)和存储器21,一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中,存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器20可以设置为与存储介质22通信,在服务器上执行存储介质22中的一系列指令操作。
服务器还可以包括一个或一个以上电源23,一个或一个以上有线或无线网络接口24,一个或一个以上输入输出接口25,和/或,一个或一个以上操作系统223,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述方法实施例中所述的由故障检测服务器所执行的步骤可以基于该图6所示的服务器的结构。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。
以上对本发明实施例所提供的网络故障的检测方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种网络故障的检测方法,其特征在于,包括:
获取如下至少一个网络通信信息:客户端与内容分发网络节点之间的通信信息,内容分发网络节点的性能信息和调度信息;
如果所述客户端与内容分发网络节点的通信故障,将所述获取的网络通信信息与预置的故障模型库进行匹配,所述预置的故障模型库中包括多个故障模型的描述信息;
如果所述网络通信信息中多个参数的数值分别在第一故障模型的描述信息中相应的各参数的数值范围内,确定所述通信故障属于第一故障模型;
根据所述确定的第一故障模型对所述网络通信信息对应的内容分发网络节点进行告警。
2.如权利要求1所述的方法,其特征在于,
所述获取的网络通信信息包括:与客户端通信的第一内容分发网络节点在某一时间段与其前一时间段的流量差和流量比;所述第一内容分发网络节点的时延值,中央处理器的使用率和磁盘输入输出的频率;
所述如果所述网络通信信息中多个参数的数值分别在第一故障模型的描述信息中相应的各参数的数值范围内,确定所述通信故障属于第一故障模型,具体包括:
所述第一内容分发网络节点在某一时间段与其前一时间段内的流量差值大于预置差值,或流量比大于预置比值;所述第一内容分发网络节点的时延值高于预置的第一时延值;所述第一内容分发网络节点的中央处理器的使用率大于预置的使用率;及所述第一内容分发网络节点的磁盘输入输出的频率高于预置的频率值,确定所述通信故障属于分布式拒绝服务攻击的模型。
3.如权利要求1所述的方法,其特征在于,
所述获取的网络通信信息包括:与客户端通信的第二内容分发网络节点处理的跨域或跨运营商的请求的百分比或数量,所述第二内容分发网络节点的时延值;
所述如果所述网络通信信息中多个参数的数值分别在第一故障模型的描述信息中相应的各参数的数值范围内,确定所述通信故障属于第一故障模型,具体包括:
所述第二内容分发网络节点的时延值大于预置的第二时延值,及所述第二内容分发网络节点处理的跨域或跨营运商的请求的百分比大于n%或跨域或跨营运商的请求的数量大于m,则确定所述通信故障属于调度异常的模型。
4.如权利要求1所述的方法,其特征在于,
所述获取的网络通信信息包括:第三内容分发网络节点的时延值,与所述第三内容分发网络节点通信的客户端的请求成功率;
所述如果所述网络通信信息中多个参数的数值分别在第一故障模型的描述信息中相应的各参数的数值范围内,确定所述通信故障属于第一故障模型,具体包括:
所述第三内容分发网络节点的时延值大于预置的第三时延值,和/或与所述第三内容分发网络节点通信的客户端的请求成功率低于预置的成功率,确定所述通信故障属于内容分发网络节点的中央处理器的使用率过高,或内存使用率过高,或出入流量过高的模型。
5.如权利要求1至4任一项所述的方法,其特征在于,所述将所述获取的网络通信信息与预置的故障模型库进行匹配之前,所述方法还包括:
如果所述客户端与内容分发网络节点的通信故障,判断是否对所述通信故障的故障原因进行检测,如果是,则执行所述匹配和告警的步骤。
6.如权利要求1至4任一项所述的方法,其特征在于,所述故障模型库中还可以各个故障模型的解决方案信息;
所述对所述网络通信信息对应的内容分发网络节点进行告警,具体包括:将所述客户端与内容分发网络节点的通信故障为第一故障模型的信息,及对应的解决方案信息发送给对应内容分发网络节点的运维管理设备。
7.如权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
将所述网络通信信息与所述第一故障模型的描述信息进行合并,形成所述第一故障模型的新描述信息;
用所述新描述信息替换所述故障模型库中所述第一故障模型的描述信息。
8.如权利要求1至4任一项所述的方法,其特征在于,所述获取如下至少一个网络通信信息之前,所述方法还包括:
储存多个故障模型的描述信息,以创建所述预置的故障模型库,其中,每个故障模型的描述信息包括如下至少一个维度的参数的数值:客户端与内容分发网络节点之间的通信信息维度,内容分发网络节点的性能信息维度和调度信息维度。
9.如权利要求8所述的方法,其特征在于,所述故障模型库中包括多个如下的故障模型的描述信息:分布式拒绝服务攻击的模型,调度异常的模型,及内容分发网络节点的中央处理器的使用率过高,或内存使用率过高,或出入流量过高的模型;
其中,所述分布式拒绝服务攻击的模型的描述信息包括:内容分发网络节点在某一时间段与其前一时间段内的流量差值范围为大于预置差值,或流量比范围为大于预置比值;内容分发网络节点的时延范围为高于预置的第一时延值;内容分发网络节点的中央处理器的使用率范围为大于预置的使用率;及内容分发网络节点的磁盘输入输出的频率范围为高于预置的频率值;
所述调度异常的模型的描述信息包括:内容分发网络节点的时延范围为高于预置的第二时延值,及内容分发网络节点处理的跨域或跨运营商的请求的百分比范围为大于n%,或跨域或跨运营商的请求的数量范围为大于m;
内容分发网络节点的中央处理器的使用率过高,或内存使用率过高,或出入流量过高的模型的描述信息包括:内容分发网络节点的时延范围为高于预置的第三时延值,和/或与内容分发网络节点通信的客户端的请求成功率范围为低于预置的成功率。
10.一种网络故障的检测装置,其特征在于,包括:
信息获取单元,用于获取如下至少一个网络通信信息:客户端与内容分发网络节点之间的通信信息,内容分发网络节点的性能信息和调度信息;
匹配单元,用于如果所述客户端与内容分发网络节点的通信故障,将所述获取的网络通信信息与预置的故障模型库进行匹配,所述预置的故障模型库中包括多个故障模型的描述信息;
模型确定单元,用于如果所述网络通信信息中多个参数的数值分别在第一故障模型的描述信息中相应的各参数的数值范围内,确定所述通信故障属于第一故障模型;
告警单元,用于根据所述确定的第一故障模型对所述网络通信信息对应的内容分发网络节点进行告警。
11.如权利要求10所述的装置,其特征在于,
所述信息获取单元获取的网络通信信息包括:与客户端通信的第一内容分发网络节点在某一时间段与其前一时间段的流量差和流量比;所述第一内容分发网络节点的时延值,中央处理器的使用率和磁盘输入输出的频率;
所述模型确定单元,具体用于所述第一内容分发网络节点在某一时间段与其前一时间段内的流量差值大于预置差值,或流量比大于预置比值;所述第一内容分发网络节点的时延值高于预置的第一时延值;所述第一内容分发网络节点的中央处理器的使用率大于预置的使用率;及所述第一内容分发网络节点的磁盘输入输出的频率高于预置的频率值,确定所述通信故障属于分布式拒绝服务攻击的模型。
12.如权利要求10所述的装置,其特征在于,
所述信息获取单元获取的网络通信信息包括:与客户端通信的第二内容分发网络节点处理的跨域或跨运营商的请求的百分比或数量,所述第二内容分发网络节点的时延值;
所述模型确定单元,具体用于所述第二内容分发网络节点的时延值大于预置的第二时延值,及所述第二内容分发网络节点处理的跨域或跨营运商的请求的百分比大于n%或跨域或跨营运商的请求的数量大于m,则确定所述通信故障属于调度异常的模型。
13.如权利要求10所述的装置,其特征在于,
所述信息获取单元获取的网络通信信息包括:第三内容分发网络节点的时延值,与所述第三内容分发网络节点通信的客户端的请求成功率;
所述模型确定单元,具体用于所述第三内容分发网络节点的时延值大于预置的第三时延值,和/或与所述第三内容分发网络节点通信的客户端的请求成功率低于预置的成功率,确定所述通信故障属于内容分发网络节点的中央处理器的使用率过高,或内存使用率过高,或出入流量过高的模型。
14.如权利要求10至13任一项所述的装置,其特征在于,还包括:
判断单元,用于如果所述客户端与内容分发网络节点的通信故障,判断是否对所述通信故障的故障原因进行检测,如果是,通知所述匹配单元执行所述匹配的步骤。
15.如权利要求10至13任一项所述的装置,其特征在于,所述故障模型库中还可以各个故障模型的解决方案信息;
所述告警单元,具体用于将所述客户端与内容分发网络节点的通信故障为第一故障模型的信息,及对应的解决方案信息发送给对应内容分发网络节点的运维管理设备。
16.如权利要求10至13任一项所述的装置,其特征在于,还包括:
合并单元,用于将所述网络通信信息与所述第一故障模型的描述信息进行合并,形成所述第一故障模型的新描述信息;
替换单元,用于用所述新描述信息替换所述故障模型库中所述第一故障模型的描述信息。
17.如权利要求6至8任一项所述的装置,其特征在于,还包括:
创建单元,用于储存多个故障模型的描述信息,以创建所述预置的故障模型库,其中,每个故障模型的描述信息包括如下至少一个维度的参数的数值:客户端与内容分发网络节点之间的通信信息维度,内容分发网络节点的性能信息维度和调度信息维度。
18.如权利要求17所述的装置,其特征在于,
所述故障模型库中包括多个如下的故障模型的描述信息:分布式拒绝服务攻击的模型,调度异常的模型,及内容分发网络节点的中央处理器的使用率过高,或内存使用率过高,或出入流量过高的模型;
其中,所述分布式拒绝服务攻击的模型的描述信息包括:内容分发网络节点在某一时间段与其前一时间段内的流量差值范围为大于预置差值,或流量比范围为大于预置比值;内容分发网络节点的时延范围为高于预置的第一时延值;内容分发网络节点的中央处理器的使用率范围为大于预置的使用率;及内容分发网络节点的磁盘输入输出的频率范围为高于预置的频率值;
所述调度异常的模型的描述信息包括:内容分发网络节点的时延范围为高于预置的第二时延值,及内容分发网络节点处理的跨域或跨运营商的请求的百分比范围为大于n%,或跨域或跨运营商的请求的数量范围为大于m;
内容分发网络节点的中央处理器的使用率过高,或内存使用率过高,或出入流量过高的模型的描述信息包括:内容分发网络节点的时延范围为高于预置的第三时延值,和/或与内容分发网络节点通信的客户端的请求成功率范围为低于预置的成功率。
CN201610597081.7A 2016-07-26 2016-07-26 一种网络故障的检测方法及装置 Active CN106130786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610597081.7A CN106130786B (zh) 2016-07-26 2016-07-26 一种网络故障的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610597081.7A CN106130786B (zh) 2016-07-26 2016-07-26 一种网络故障的检测方法及装置

Publications (2)

Publication Number Publication Date
CN106130786A true CN106130786A (zh) 2016-11-16
CN106130786B CN106130786B (zh) 2019-05-07

Family

ID=57289793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610597081.7A Active CN106130786B (zh) 2016-07-26 2016-07-26 一种网络故障的检测方法及装置

Country Status (1)

Country Link
CN (1) CN106130786B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107733681A (zh) * 2017-07-28 2018-02-23 贵州白山云科技有限公司 一种调度方案配置方法和装置
CN107911240A (zh) * 2017-11-14 2018-04-13 北京知道创宇信息技术有限公司 一种故障检测方法以及装置
WO2018094739A1 (zh) * 2016-11-28 2018-05-31 华为技术有限公司 一种处理业务的方法、业务节点、控制节点和分布式系统
CN108134703A (zh) * 2017-12-26 2018-06-08 北京天元创新科技有限公司 网络小区隐患故障预测分析方法及装置
CN108234207A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 一种基于内容分发网络cdn的故障定位方法和装置
CN108989368A (zh) * 2017-05-31 2018-12-11 腾讯科技(深圳)有限公司 一种链路质量的控制方法及监控设备
CN109088754A (zh) * 2018-07-31 2018-12-25 北京航空航天大学 一种通信网络性能故障致因与特征参数关联关系分析方法
CN109245910A (zh) * 2017-07-10 2019-01-18 中兴通讯股份有限公司 识别故障类型的方法及装置
CN109640127A (zh) * 2018-12-30 2019-04-16 北京奇艺世纪科技有限公司 内容分发网络的故障定位方法及装置
CN110011825A (zh) * 2019-02-26 2019-07-12 贵阳忆联网络有限公司 一种网络故障自动化智能处理方法及系统
CN111181759A (zh) * 2019-08-08 2020-05-19 腾讯科技(深圳)有限公司 一种网络设备的异常识别方法、装置、设备及存储介质
CN112491635A (zh) * 2019-08-20 2021-03-12 中兴通讯股份有限公司 一种链路质量检测的方法、系统、实现设备及存储介质
CN112737894A (zh) * 2021-01-06 2021-04-30 北京字节跳动网络技术有限公司 网络质量监控方法和装置、存储介质和电子设备
CN114095394A (zh) * 2021-11-25 2022-02-25 北京百度网讯科技有限公司 网络节点故障检测方法、装置、电子设备及存储介质
CN114270784A (zh) * 2019-08-21 2022-04-01 因诺格斯韩国公司 利用故障对应边缘服务器分组化的故障诱发客户端检索方法及系统
CN114374597A (zh) * 2021-12-27 2022-04-19 浪潮通信信息系统有限公司 一种网络事件的故障处理方法、装置、设备及产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540761A (zh) * 2009-04-24 2009-09-23 成都市华为赛门铁克科技有限公司 一种分布式拒绝服务攻击的监控方法和监控设备
CN101714116A (zh) * 2009-09-29 2010-05-26 深圳市研祥通讯终端技术有限公司 一种终端控制机和终端控制机的监测方法
CN103064013A (zh) * 2012-12-19 2013-04-24 北京自动测试技术研究所 一种基于故障模型的集成电路测试方法
US8842687B1 (en) * 2006-06-30 2014-09-23 Blue Coat Systems, Inc. By-pass port facilitating network device failure detection in wide area network topologies
CN105320585A (zh) * 2014-07-08 2016-02-10 北京启明星辰信息安全技术有限公司 一种实现应用故障诊断的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8842687B1 (en) * 2006-06-30 2014-09-23 Blue Coat Systems, Inc. By-pass port facilitating network device failure detection in wide area network topologies
CN101540761A (zh) * 2009-04-24 2009-09-23 成都市华为赛门铁克科技有限公司 一种分布式拒绝服务攻击的监控方法和监控设备
CN101714116A (zh) * 2009-09-29 2010-05-26 深圳市研祥通讯终端技术有限公司 一种终端控制机和终端控制机的监测方法
CN103064013A (zh) * 2012-12-19 2013-04-24 北京自动测试技术研究所 一种基于故障模型的集成电路测试方法
CN105320585A (zh) * 2014-07-08 2016-02-10 北京启明星辰信息安全技术有限公司 一种实现应用故障诊断的方法及装置

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018094739A1 (zh) * 2016-11-28 2018-05-31 华为技术有限公司 一种处理业务的方法、业务节点、控制节点和分布式系统
CN108989368A (zh) * 2017-05-31 2018-12-11 腾讯科技(深圳)有限公司 一种链路质量的控制方法及监控设备
CN108989368B (zh) * 2017-05-31 2021-07-27 腾讯科技(深圳)有限公司 一种链路质量的控制方法及监控设备
CN109245910A (zh) * 2017-07-10 2019-01-18 中兴通讯股份有限公司 识别故障类型的方法及装置
CN107733681B (zh) * 2017-07-28 2018-10-30 贵州白山云科技有限公司 一种调度方案配置方法和装置
CN107733681A (zh) * 2017-07-28 2018-02-23 贵州白山云科技有限公司 一种调度方案配置方法和装置
US11695856B2 (en) 2017-07-28 2023-07-04 Guizhou Baishancloud Technology Co., Ltd. Scheduling solution configuration method and apparatus, computer readable storage medium thereof, and computer device
CN107911240A (zh) * 2017-11-14 2018-04-13 北京知道创宇信息技术有限公司 一种故障检测方法以及装置
CN108134703B (zh) * 2017-12-26 2021-03-30 北京天元创新科技有限公司 网络小区隐患故障预测分析方法及装置
CN108134703A (zh) * 2017-12-26 2018-06-08 北京天元创新科技有限公司 网络小区隐患故障预测分析方法及装置
CN108234207A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 一种基于内容分发网络cdn的故障定位方法和装置
CN109088754A (zh) * 2018-07-31 2018-12-25 北京航空航天大学 一种通信网络性能故障致因与特征参数关联关系分析方法
CN109640127A (zh) * 2018-12-30 2019-04-16 北京奇艺世纪科技有限公司 内容分发网络的故障定位方法及装置
CN110011825A (zh) * 2019-02-26 2019-07-12 贵阳忆联网络有限公司 一种网络故障自动化智能处理方法及系统
CN111181759A (zh) * 2019-08-08 2020-05-19 腾讯科技(深圳)有限公司 一种网络设备的异常识别方法、装置、设备及存储介质
CN111181759B (zh) * 2019-08-08 2021-09-14 腾讯科技(深圳)有限公司 一种网络设备的异常识别方法、装置、设备及存储介质
CN112491635A (zh) * 2019-08-20 2021-03-12 中兴通讯股份有限公司 一种链路质量检测的方法、系统、实现设备及存储介质
CN114270784A (zh) * 2019-08-21 2022-04-01 因诺格斯韩国公司 利用故障对应边缘服务器分组化的故障诱发客户端检索方法及系统
CN112737894A (zh) * 2021-01-06 2021-04-30 北京字节跳动网络技术有限公司 网络质量监控方法和装置、存储介质和电子设备
CN112737894B (zh) * 2021-01-06 2022-02-08 北京字节跳动网络技术有限公司 网络质量监控方法和装置、存储介质和电子设备
CN114095394A (zh) * 2021-11-25 2022-02-25 北京百度网讯科技有限公司 网络节点故障检测方法、装置、电子设备及存储介质
CN114095394B (zh) * 2021-11-25 2023-09-19 北京百度网讯科技有限公司 网络节点故障检测方法、装置、电子设备及存储介质
CN114374597A (zh) * 2021-12-27 2022-04-19 浪潮通信信息系统有限公司 一种网络事件的故障处理方法、装置、设备及产品

Also Published As

Publication number Publication date
CN106130786B (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN106130786A (zh) 一种网络故障的检测方法及装置
CN108491305A (zh) 一种服务器故障的检测方法及系统
CN102868553B (zh) 故障定位方法及相关设备
CN106789323A (zh) 一种通信网络管理方法及其装置
CN104811437B (zh) 一种工业控制网络中生成安全策略的系统和方法
CN103954011B (zh) 空调机组的室内、外机匹配方法和装置以及空调机组
CN103581951B (zh) 一种基站检测方法及装置
CN108989136A (zh) 业务端到端性能监控方法及装置
CN111600863B (zh) 网络入侵检测方法、装置、系统和存储介质
CN108092854A (zh) 基于iec61375协议的列车级以太网设备的测试方法及装置
CN107888441A (zh) 一种网络流量基线自学习自适应方法
CN111193608B (zh) 网络质量探测监控方法、装置、系统和计算机设备
CN110224883A (zh) 一种应用于电信承载网的灰色故障诊断方法
CN111988170B (zh) 一种终端故障定位方法及装置
CN105099762B (zh) 一种系统运维功能的自检方法及自检系统
CN111526109B (zh) 自动检测web威胁识别防御系统的运行状态的方法及装置
CN101252477B (zh) 一种网络故障根源的确定方法及分析装置
CN104461847B (zh) 数据处理程序检测方法及装置
WO2018035765A1 (zh) 网络异常的检测方法及装置
CN106713307A (zh) 一种检测sdn中流表一致性的方法和系统
CN110048909B (zh) 网络运维方法及装置
CN112291225A (zh) 一种应用于积分系统的大数据异常流量检测方法和系统
CN107026761A (zh) 一种确定告警源的方法及装置
CN115150294B (zh) 一种用于监控物联网设备的数据分析方法、设备及介质
CN108156019B (zh) 一种基于sdn的网络衍生告警过滤系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant