CN106302001A - 数据通信网络中业务故障检测方法、相关装置及系统 - Google Patents

数据通信网络中业务故障检测方法、相关装置及系统 Download PDF

Info

Publication number
CN106302001A
CN106302001A CN201610615938.3A CN201610615938A CN106302001A CN 106302001 A CN106302001 A CN 106302001A CN 201610615938 A CN201610615938 A CN 201610615938A CN 106302001 A CN106302001 A CN 106302001A
Authority
CN
China
Prior art keywords
datacom device
message
datacom
message amount
fault detect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610615938.3A
Other languages
English (en)
Other versions
CN106302001B (zh
Inventor
张亚博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XFusion Digital Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610615938.3A priority Critical patent/CN106302001B/zh
Publication of CN106302001A publication Critical patent/CN106302001A/zh
Application granted granted Critical
Publication of CN106302001B publication Critical patent/CN106302001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level

Abstract

本申请实施例公开了数据通信网络中业务故障检测方法、相关装置及系统。该方法包括:数通设备统计通过物理接口接收的报文数量x1、通过所述物理接口发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2;所述数通设备通过以下公式确定所述数通设备的流量守恒率r1所述数通设备将所述流量守恒率r1上传至所述数据通信网络中的故障检测服务器上,所述流量守恒率r1用以表征所述数通设备的业务整体的运行健康程度。本发明实施例通过流量守恒率为数通设备及其所在的数通网络建立了有效的KPI,进而能够有效对数通设备进行业务故障检测。

Description

数据通信网络中业务故障检测方法、相关装置及系统
技术领域
本申请涉及数据通信网络技术领域,具体主要涉及了数据通信网络中业务故障检测方法、相关装置及系统。
背景技术
目前为通信网络建立KPI(Key Performance Indicator,关键业务指标)体系,能够通过检测通信网络KPI的变化现象,判断该通信网络是否出现业务故障,并在出现业务故障时,通过通信网络KPI的具体变化方式,快速实现对该通信网络进行故障定界,从而能够及时对通信网络进行维修,使其快速恢复业务运行。例如,在无线通信网络中,对于确定无线语音类(CS域)业务是否出现故障所需要检测的一个重要KPI为“CS域业务掉话率”,该KPI用于整体表征无线通信网络网元所承载的语音业务的健康程度,如在3G(3rd-Generation,第三代)无线通信网络中,该KPI用于表征RNC(Radio Network Controller,无线网络控制器)所承载的语音业务的健康程度;对于确定无线数据类(PS域)业务是否出现故障所需要检测的一个重要KPI为“PS域业务上下行吞吐量”,如在GPRS(General Packet RadioService,通用分组无线服务)网络中,该KPI用于表征GGSN(Gateway GPRS Support Node)所承载的数据业务的健康程度。
然而,目前并没有针对数据通信网络建立起有效的KPI体系,由于数据通信网络中的数通设备承载的业务流量大小时刻变化,并且数通设备需要转发的业务类型较多,如组播类业务或VPLS(Virtual Private Lan Service,虚拟专用局域网)业务等会在数通设备中进行报文复制,导致无法通过简单检测数通设备的接口流量或对比数通设备的入出报文数目等指标来判断数据通信网络中数通设备所承载的业务健康程度,进而导致无法有效判断数据通信网络是否出现业务故障。
发明内容
本申请实施例提供数据通信网络中业务故障检测方法、相关装置及系统。
本申请实施例第一方面提供一种数据通信网络中业务故障检测方法,包括:数通设备统计通过物理接口接收的报文数量x1、通过所述物理接口发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2;所述数通设备通过以下公式确定所述数通设备的流量守恒率r1所述数通设备将所述流量守恒率r1上传至所述数据通信网络中的故障检测服务器上,所述流量守恒率r1用以表征所述数通设备的业务整体的运行健康程度。
可以看出,数通设备在进行报文处理的过程中,可统计数通设备各通信接口接收的报文数量、发送的报文数量以及在数通设备中复制增加的报文数量,进而能够确定该数通设备的流量守恒率,并可将流量守恒率上传至故障检测服务器,以供故障检测服务器确定该数通设备的业务整体的运行健康程度。从而,通过流量守恒率为数通设备及其所在的数通网络建立了有效的KPI,进而能够有效对数通设备进行业务故障检测。
在第一方面的一些可能的实施方式中,所述数通设备统计通过物理接口接收的报文数量x1、通过所述物理接口发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2后,所述方法还包括:所述数通设备通过以下公式确定所述数通设备的报文入出比r2所述数通设备将所述报文入出比r2上传至所述数据通信网络中的所述故障检测服务器上,所述报文入出比r2用以表征所述数通设备的报文入出的运行健康程度。
在第一方面的一些可能的实施方式中,所述方法还包括:所述数通设备统计所述数通设备复制完成的报文数量z2以及所述数通设备需要复制的报文数量z3;所述数通设备通过以下公式确定所述数通设备的报文复制率r3所述数通设备将所述报文复制率r3上传至所述数据通信网络中的所述故障检测服务器上,所述报文复制率r3用以表征所述数通设备的报文复制的运行健康程度。
在第一方面的一些可能的实施方式中,所述方法还包括:所述数通设备统计所述数通设备中的所有物理接口接收的报文字节数量byte1、所述所有物理接口发送的报文字节数量byte2以及所述所有物理接口的带宽之和SUMB;所述数通设备通过以下公式确定所述数通设备的带宽利用率r4所述数通设备将所述报文复制率r4上传至所述数据通信网络中的所述故障检测服务器上,所述报文复制率r4用以表征所述数通设备的报文吞吐量的运行健康程度。
在第一方面的一些可能的实施方式中,所述数通设备统计通过物理接口接收的报文数量x1、通过所述物理接口发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2后,所述方法还包括:所述数通设备根据所述通过所述物理接口接收的报文数量x1、所述通过所述物理接口发送的报文数量y1、所述复制增加的报文数量z1、所述接收到的与所述数通设备连接的主控板下发的报文数量x2、以及所述上传至所述主控板报文数量y2,统计报文丢弃数量;所述数通设备将所述报文丢弃数量上传至所述数据通信网络中的所述故障检测服务器上,所述报文丢弃数量用以表征所述数通设备的报文丢弃的运行健康程度。
本申请实施例第二方面提供一种数据通信网络中业务故障检测方法,包括:故障检测服务器接收数通设备上传的流量守恒率,所述流量守恒率由所述数通设备在统计接收的报文数量x1、发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2之后,通过公式确定所述数通设备的流量守恒率r1;所述故障检测服务器根据所述流量守恒率确定所述数通设备是否发生业务故障。
在第二方面的一些可能的实施方式中,所述方法还包括:所述故障检测服务器接收所述数通设备上传的报文入出比、报文复制率、带宽利用率、报文丢弃数量中的至少一种;所述故障检测服务器根据所述流量守恒率确定所述数通设备是否发生业务故障后,所述方法还包括:若所述故障检测服务器确定所述数通设备发生业务故障,所述故障检测服务器根据所述接收到的所述报文入出比、所述报文复制率、所述带宽利用率、所述报文丢弃数量中的至少一种,确定所述数通设备发生业务故障的故障类型。
在第二方面的一些可能的实施方式中,所述故障检测服务器根据所述接收到的所述报文入出比、所述报文复制率、所述带宽利用率、所述报文丢弃数量中的至少一种,确定所述数通设备发生业务故障的故障类型之后,所述方法还包括:所述故障检测服务器根据所述数通设备发生业务故障的故障类型,确定所述数通设备所在的数通网络的网络故障类型。
在第二方面的一些可能的实施方式中,所述故障检测服务器根据所述流量守恒率确定所述数通设备是否发生业务故障后,所述方法还包括:若所述故障检测服务器确定所述数通设备发生业务故障后,所述故障检测服务器向后台设备发送告警消息,所述告警消息包括所述数通设备的设备信息。
本申请实施例第三方面提供一种数通设备,所述数通设备包含了用于执行第一方面中的方法的单元。
本申请实施例第四方面提供一种故障检测服务器,所述故障检测服务器包含了用于执行第二方面中的方法的单元。
本申请实施例第五方面提供一种数通设备,包括:存储单元、处理器、子卡、网络处理器、流量管理器及总线系统;所述存储单元、处理器、子卡、网络处理器及流量管理器通过所述总线系统耦合;所述子卡包括至少一个物理接口,所述网络处理器包括至少一个网络处理单元,所述流量管理器包括至少一个流量管理芯片;所述存储单元用于存储指令,所述处理器用于执行所述指令;其中,所述处理器执行所述指令时执行第一方面提供的方法中相应的功能。所述子卡包括的至少一个物理接口可为通信接口,用于该数通设备与故障检测服务器或通信网络通信。
本申请实施例第六方面提供一种故障检测服务器,所述故障检测服务器中可包括处理器,处理器被配置为支持所述故障检测服务器执行第二方面提供的方法中相应的功能。所述故障检测服务器还可以包括存储器,存储器用于与处理器耦合,其保存所述故障检测服务器必要的程序指令和数据。所述宏基站还可以包括通信接口,用于所述故障检测服务器与数通设备或通信网络通信。
本申请实施例第七方面提供一种数据通信网络中业务故障检测系统,包括:至少一个数通设备以及至少一个故障检测服务器;所述至少一个数通设备包含了第三方面或第五方面中的数通设备;所述至少一个数通设备包含了第四方面或第六方面中的数通设备。
本申请实施例第八方面提供一种计算机存储介质,用于储存为上述第五方面提供的数通设备所用的计算机软件指令,其包含用于执行第一方面中方法所设计的程序。
本申请实施例第九方面提供一种计算机存储介质,用于储存为上述第六方面提供的故障检测服务器所用的计算机软件指令,其包含用于执行第二方面中方法所设计的程序。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的网络架构的示意图;
图2为本申请实施例提供的一种数据通信网络中业务故障检测方法的流程示意图;
图3为本申请实施例提供的另一数据通信网络中业务故障检测方法的流程示意图;
图4为本申请实施例提供的又一数据通信网络中业务故障检测方法的流程示意图;
图5为本申请实施例提供的一种检测数据通信网络中各数通设备的流量守恒率的示意图;
图6为本申请实施例提供的一种数通设备各KPI在正常情况下的显示示意图;
图7为本申请实施例提供的一种数通设备发生业务故障情况下的显示示意图;
图8为本申请实施例提供的另一种数通设备发生业务故障情况下的显示示意图;
图9为本申请实施例提供的一种数通设备的单元组成示意图;
图10为本申请实施例提供的一种故障检测服务器的单元组成示意图;
图11为本申请实施例提供的一种数通设备的结构示意图;
图12为本申请实施例提供的一种故障检测服务器的结构示意图;
图13为本申请实施例提供的一种数据通信网络中业务故障检测系统的结构示意图。
具体实施方式
本申请实施例提供数据通信网络中业务故障检测方法和相关装置和相关系统。
本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同的对象,而并非用于描述特定的顺序。
为便于方案理解,下面首先结合相关附图来举例介绍下本申请实施例的方案可能应用到的网络架构。
如图1举例所示,该网络架构包括IPRAN(IP-Radio Access Network,IP化无线接入网),其承接基站与基站控制器之间的无线接入业务,其中,基站与基站控制器可应用在2G、3G或4G通信网络中。本发明实施例中,IPRAN网络由数通设备组成,其中,数通设备可包括路由器、交换机、具备防火墙功能的设备等。当然,本发明实施例中的数据通信网络(如IPRAN等)还可包括用于连接数通设备与后台设备的服务器等,未展示在图1中。
当前如果图1所示的网络架构出现网络故障时,首先需要通过排除基站侧以及基站控制侧设备出现业务故障后,才能确定是IPRAN网络出现业务故障,并且需要人工对IPRAN网络中的数通设备逐一排查,才能确定网络出现的网络故障类型以及出现业务故障的数通设备,并对其进行维护,导致了数据通信网络的故障定界难的问题,并且需要消耗大量的人工维护成本,业务恢复时间长,不利于有效对数据通信网络中的业务故障进行检测及维护。
为解决上述技术问题,结合图1所示的本申请实施例所应用的网络架构,下面介绍本申请实施例的一些数据通信网络中业务故障检测方法。
参见图2,图2为本申请实施例提供的一种数据通信网络中业务故障检测方法的流程示意图,如图2举例所示,本申请实施例提供的一种数据通信网络中业务故障检测方法可以包括:
步骤S201,数通设备统计通过物理接口接收的报文数量x1、通过所述物理接口发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2
在一些可行的实施方式中,数通设备在进行报文处理的过程中,可统计接收的报文数量x1、发送的报文数量y1、复制增加的报文数量z1、上传至与所述数通设备连接的主控板的报文数量x2以及接收到的所述主控板下发的报文数量y2。具体的,数通设备可通过数通设备中子卡所配置的至少一个物理接口来统计接收的报文数量x1以及发送的报文数量y1;并通过数通设备中配置的TM(Traffic Manager,流量管理)芯片统计复制增加的报文数量z1,例如通过统计在TM芯片上完成一次复制过程中,未复制报文的报文数量以及复制完成的报文数量,进而能够统计出复制增加的报文数量z1;并通过数通设备中配置的处理器统计上传至与所述数通设备连接的主控板的报文数量x2以及通过数通设备中配置的网络处理器统计接收到的所述主控板下发的报文数量y2。本发明实施例中,主控板可与多个数通设备进行连接,用于对连接的数通设备进行设备管理、路由传输路径计算、以及对主机报文协议进行传输等。
步骤S202,所述数通设备通过以下公式确定所述数通设备的流量守恒率r1
在一些可行的实施方式中,当数通设备统计出上述参数后,可通过公式确定该数通设备的流量守恒率。具体的,数通设备已通过上述统计方式统计出该数通设备在其配置的各通信接口所能够接收到的报文数量,并统计出该数据设备在其配置的各通信接口所发送的报文数量,由于数通设备的主要功能即完成对报文的转发,则其接收到的报文与发送的报文需要守恒,在此,又由于数通设备对报文的转发类型较多,如组播类型等,则在数通设备中需要对报文进行复制,则在数通设备进行报文发送的过程中,其发送的报文数量则为实际发送的报文数量去除复制所增加的报文数量,进而接收到的报文数量与发送的报文能够符合流量守恒定律,即接收到的报文数量大致与发送的报文数量相同,或其发送的报文数量与接收的报文数量的比值(即本申请中的能量守恒率)需要约等于1。本发明实施例中的能量守恒率由于综合了数通设备各业务运行前及运行后的结果,因此能量守恒率表征了该数通设备的业务整体的运行健康程度,即能量守恒率表征了数通设备的转发报文业务、产生协议报文业务、复制增加报文业务等多个业务综合的运行健康程度。进而确定出的能量守恒率可作为检测数通设备的业务运行健康程度的一个重要KPI。
步骤S203,所述数通设备将所述流量守恒率r1上传至所述数据通信网络中的故障检测服务器上,所述流量守恒率r1用以表征所述数通设备的业务整体的运行健康程度。
在一些可行的实施方式中,数通设备在确定出该数通设备的流量守恒率后,可将该流量守恒率上传至数据通信网络中的故障检测服务器上。可选的,数通设备可实时将确定的流量守恒率上传至故障检测服务器上,或者按照预设时间周期将流量守恒率上传至故障检测服务器上,或者当数通网络出现故障,服务器发送请求时,数通设备将确定的流量守恒率上传至服务器上,以供服务器确定该数通设备是否出现业务故障。
步骤S204,所述故障检测服务器接收数通设备上传的流量守恒率。
在一些可行的实施方式中,数据通信网络中可设置至少一个故障检测服务器,用以接收并存储数据通信网络中数通设备上传的流量守恒率。可选的,故障检测服务器可基于后台设备的请求,或按照预设周期,或在接收到数通设备的流量守恒率后,向后台设备发送该数通设备的流量守恒率,从而能够在后台设备上监控或检测该数通设备的业务运行健康程度。
步骤S205,所述故障检测服务器根据所述流量守恒率确定所述数通设备是否发生业务故障。
在一些可行的实施方式中,故障检测服务器可根据流量守恒率确定数通设备是否发生业务故障。具体的,故障检测服务器在接收数通设备上传的流量守恒率后,还可根据该流量守恒率确定数通设备是否发生业务故障。例如,当故障检测服务器实时接收到数通设备的流量守恒率后,可监测确定该数通设备的流量守恒率是否发生明显变化,如监测到流量守恒率在某一时刻突然降低,且降低幅度大于预设幅度阈值,并且监测该数通设备持续该降低状态达到预设时间阈值后,则故障检测服务器确定该数通设备发生业务故障。再例如,当故障检测服务器按照预设周期定时接收数通设备的流量守恒率后,可对比每次接收到的流量守恒率是否基本相同,若对比出相邻两次接收到的流量守恒率明显不同时,如其差值大于预设阈值时,则故障检测服务器确定该数通设备出现业务故障。再例如,故障检测服务器可接收后台设备发送的请求后,对数通设备的流量守恒率进行接收,以确定该数通设备的流量守恒率是否出现异常,如由于每个数通设备的硬件配置及处理的业务类型等因素的不同,导致每个数通设备正常的能量守恒率会有微小差异,因此,故障检测服务器可记录每个数通设备正常的能量守恒率或正常的能量守恒率范围,从而,故障检测服务器可通过判断接收到的数通设备的能量守恒率是否与该数通设备的正常的能量守恒率相同或者在正常的能量守恒率范围内,确定该数通设备是否出现业务故障,并可将确定结果发送给后台设备。
本发明实施例中,数通设备在进行报文处理的过程中,可统计数通设备各通信接口接收的报文数量、发送的报文数量以及在数通设备中复制增加的报文数量,进而能够确定该数通设备的流量守恒率,并可将流量守恒率上传至故障检测服务器,以供故障检测服务器确定该数通设备的业务整体的运行健康程度。从而,通过流量守恒率为数通设备及其所在的数通网络建立了有效的KPI,进而能够有效对数通设备进行业务故障检测。
此外,数通设备还可通过统计参数确定其他KPI。具体确定方式可参见图3所示实施例。
参见图3,图3为本申请实施例提供的另一种数据通信网络中业务故障检测方法的流程示意图,如图3举例所示,本申请实施例提供的一种数据通信网络中业务故障检测方法可以包括:
步骤S301,数通设备统计通过物理接口接收的报文数量x1、通过所述物理接口发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2
步骤S302,所述数通设备通过以下公式确定所述数通设备的流量守恒率r1
步骤S301~S302的具体描述方式可参见图2所示实施例中步骤S201~S202的具体描述,在此不再赘述。
步骤S303,所述数通设备通过以下公式确定所述数通设备的报文入出比r2
在一些可行的实施例中,当数通设备统计出上述参数后,数通设备还可进一步确定数通设备的报文入出比为通过物理接口接收的报文数量x1与通过物理接口发送的报文数量y1的比值。通过确定数通设备的报文入出比,能够确定数通设备配置的子卡中物理接口的业务运行健康程度。其中,子卡中的物理接口可包括有线物理接口及无线物理接口。数通设备可分别统计每个物理接口接收的报文数量与发送的报文数量,则该报文入出比可表征该物理接口的业务运行健康程度;或者,数通设备可统计子卡中所有物理接口接收的报文数量与发送的报文数量,则该报文入出比可表征子卡整体的业务运行健康程度,即该报文入出比可用于表征数通设备转发报文业务的运行健康程度;或者,数通设备可统计子卡中部分物理接口接收的报文数量与发送的报文数量,则该报文入出比可表征子卡中上述部分物理接口的业务运行健康程度。
步骤S304,所述数通设备根据所述通过所述物理接口接收的报文数量x1、所述通过所述物理接口发送的报文数量y1、所述复制增加的报文数量z1、所述上传至与所述数通设备连接的主控板的报文数量x2、以及接收到的所述主控板下发的报文数量y2,统计报文丢弃数量。
在一些可行的实施方式中,数通设备在统计出上述参数后,还可进一步统计报文丢弃数量。具体的,数通设备可通过上述统计参数,确定接收的报文总数量为通过物理接口接收的报文数量x1与接收的主控板下发的报文数量x2之和,即x1+x2;确定发送的报文总数量为通过物理接口发送的报文数量y1与上传至主控板的报文数量y2之和结果与复制增加的报文数量z1的差值,即y1+y2-z1;数通设备通过确定接收的报文总数量与上传的报文总数量的差值,即可统计总报文丢弃数量。该报文丢弃数量能够表征数通设备的报文丢弃的运行健康程度。在一定误差范围内,允许数通设备丢弃一定数量的报文,当通过监测报文丢弃数量,发现该数通设备报文丢弃数量剧增,或者报文丢弃数量不在正常范围内,或超过预设阈值,则可进一步确定该数通设备有可能出现剪枝、超带宽、未知单播抑制等业务故障。
步骤S305,所述数通设备统计所述数通设备复制完成的报文数量z2以及所述数通设备需要复制的报文数量z3
步骤S306,所述数通设备通过以下公式确定所述数通设备的报文复制率r3
在一些可行的实施方式中,数通设备还可统计数通设备复制完成的报文数量z2以及数通设备需要复制的报文数量z3,并能够根据上述统计的参数,以及步骤S306中的公式确定报文复制率。具体的,数通设备可通过数通设备中配置的TM芯片统计数通设备复制完成的报文数量以及数通设备需要复制的报文数量。其中,数通设备可通过TM芯片根据报文中携带的信息确定所需要复制的报文,以及所需要复制的报文的需要复制数量,并可通过TM芯片对需要复制的报文进行复制,并可统计复制完成的报文数量。进而,数通设备可确定报文复制率。该报文复制率可用于表征数通设备进行报文复制业务的运行健康程度。当监控到一个或多个数通设备的报文复制率剧增时,则有可能出现数通设备所在的数据通信网络出现了二层环路广播或未知单播复制等故障。
步骤S307,所述数通设备统计所述数通设备中的所有物理接口接收的报文字节数量byte1、所述所有物理接口发送的报文字节数量byte2以及所述所有物理接口的带宽之和SUMB
步骤S308,所述数通设备通过以下公式确定所述数通设备的带宽利用率r4
在一些可行的实施方式中,数通设备还可统计所有物理接口接收的报文的字节数量byte1,所有物理接口发送的报文字节数量byte2以及所有物理接口的带宽之和SUMB;并可通过上述统计参数,以及步骤S308中的公式,确定该数通设备的带宽利用率。具体的,数通设备可分别统计配置的子卡中所有物理接口接收的报文的字节数量与所有物理接口的带宽之和的比值,以及所有物理接口发送的报文字节数量与所述物理接口的带宽之和的比值,即分别确定所有物理接口的接收利用率与发送利用率,再对所有物理接口的接收利用率与发送利用率进行加权平均,即获得数通设备的带宽利用率。数通设备的带宽利用率能够用于表征数通设备的报文吞吐量。若检测到数通设备的带宽利用率增加时,则有可能该数通设备出现广播风暴等业务故障。
步骤S309,所述数通设备将所述流量守恒率、所述报文入出比、所述报文复制率、所述带宽利用率、所述报文丢弃数量中的至少一种上传至故障检测服务器。
在一些可行的实施方式中,当数通设备确定上述指标后,可将上述指标中的至少一种上传至故障检测服务器。具体的,数通设备将上述指标实时或按照预定周期上传至故障检测服务器,或者,数通设备接收到故障检测服务器的请求后,将请求对应的或所有统计指标上传至故障检测服务器。进而故障检测服务器能够根据数通该设备上传的统计指标确定数通设备的业务运行健康程度,也可进一步通过上述统计指标确定数通设备所在数据通信网络的网络运行健康程度。或者,故障检测服务器可将数通设备上传的统计指标进行存储整合,并可将其传输至后台设备,从而使维护人员实时检测数通设备的业务运行状态,或及时查找出数通设备或数据通信网络所存在的业务故障等。
可以理解的是,步骤S301~S304、步骤S305~S306与步骤S307~S308之间并没有必然的先后顺序。
可见,通过上述方式,数通设备能够统计多个数通设备的KPI,通过数通设备统计的KPI,能够确定数通设备在处理各项业务的业务运行状态以及整体业务运行状态,进而,通过上述KPI能够快速对数通设备以及数通设备所在的数据通信网络进行业务故障定界及定位。
参见图4,图4为本申请实施例提供的又一种数据通信网络中业务故障检测方法的流程示意图。图4详细描述了故障检测服务器在接收到数通设备上传的统计指标后,确定数通设备或数通设备所在的数通网络是否发生业务故障的具体方式。如图4举例所示,本申请实施例提供的一种数据通信网络中业务故障检测方法可以包括:
步骤S401,故障检测服务器接收数通设备上传的流量守恒率。
在一些可行的实施方式中,故障检测服务器可接收数通设备上传的流量守恒率。故障检测服务器可按照预定周期接收数通设备上传的流量守恒率;或者,故障检测服务器可根据后台设备的请求,接收数通设备上传的流量守恒率等。其中,数通设备上传的流量守恒率的具体确定方式可参见图2或图3所示实施例中终端的确定流量守恒率的具体实现方式。
步骤S402,所述故障检测服务器接收所述数通设备上传的报文入出比、报文复制率、带宽利用率、报文丢弃数量中的至少一种。
在一些可行的实施方式中,故障检测服务器还可接收数通设备上传的报文入出比、报文复制率、带宽利用率或报文丢弃数量中的至少一种。故障检测服务器可同时接收数通设备上传的流量守恒率以及报文入出比、报文复制率、带宽利用率或报文丢弃数量中的至少一种;或者,故障检测服务器可在接收到数通设备上传的流量守恒率后,若根据流量守恒率了确定数通设备发生故障后,进一步从数通设备获取报文入出比、报文复制率、带宽利用率、报文丢弃数量中的至少一种的指标信息。
步骤S403,所述故障检测服务器根据所述流量守恒率确定所述数通设备是否发生业务故障。
在一些可行的实施方式中,故障检测服务器可首先根据数通设备上传的流量守恒率确定该数通设备是否发生业务故障。在确定数通设备发生业务故障后,再获取其他上述指标以确定该数通设备具体发生的业务故障的故障类型。
以图5所示示意图为例,故障检测服务器可接收IPRAN网络中各数通设备上传的流量守恒率,并监测接收到的流量守恒率,当监测到流量守恒率为近似100%时,则表明该数通设备整体业务运行状态健康;当检测到流浪守恒率下降,或不为100%时,则表明该数通设备的出现业务故障,如故障检测服务器能够监测到数通设备A以及数通设备B出现了业务故障,则可进一步获取数通设备A以及数通设备B的其他KPI指标,以进一步确定数通设备A以及数通设备B发生的业务故障的故障类型。
可选的,故障检测服务器可同时通过流量守恒率以及其他获取的指标共同确定数通设备是否发生业务故障。
以图6所示示意图为例,如图6所示,故障检测服务器同时接收了流量守恒率、报文入出比、报文复制率以及丢弃报文数。故障检测服务器按照预定周期接收后,可将所接收采集的上述指标绘制成如图6所示的示意图。其中,曲线1表示该数通设备的报文入出比,由于该数通该设备的物理接口(如VSI(Virtual Switch Interface,虚拟交换接口)等)所承载的流量,即所接收与所发送的报文数量,存在少量波动,因此,曲线1表示的该数通设备的报文入出比也存在少量波动,但其变化幅度范围仍在正常范围内;曲线2表示该数通设备的报文复制率,如图6中曲线变化趋势所示,该数通设备的报文复制率稳定;曲线3表示该数通设备的流量守恒率,如图6中曲线变化趋势所示,该数通设备的流量守恒率稳定;曲线4表示该数通设备的丢弃报文数,该整机丢包率基于业务需求,该数通设备的丢弃报文数稳定。故障检测服务器根据上述综合确定的指标稳定度,确定该数通设备未发生业务故障。
步骤S404,若所述故障检测服务器确定所述数通设备发生业务故障,所述故障检测服务器根据所述接收到的所述报文入出比、所述报文复制率、所述带宽利用率、所述报文丢弃数量中的至少一种,确定所述数通设备发生业务故障的故障类型。
在一些可行的实施方式中,当故障检测服务器根据流量守恒率确定出数通设备发生业务故障后,可进一步根据接收到的KPI指标,确定该数通设备发生业务故障的故障类型。
以图7所示示意图为例,如图7所示,故障检测服务器同时接收了流量守恒率、报文入出比、报文复制率以及丢弃报文数。故障检测服务器按照预定周期接收后,可将所接收采集的上述指标绘制成如图7所示的示意图。其中,曲线3表示该数通设备的流量守恒率,如图7所示,该流量守恒率在某一时刻出现大幅下降,则表明该数通设备发生业务故障,同时,可监测到曲线1代表的报文入出比以及曲线2代表的报文复制率均不再稳定,出现下降状态,并且曲线3代表的丢弃报文数大幅上升,则可确定该数通设备发生业务故障的故障类型为报文在数通设备配置的TM芯片中被丢弃,进一步的,还可通过统计各TM芯片丢弃报文数以确定数通设备中具体出现问题的TM芯片。
步骤S405,所述故障检测服务器根据所述数通设备发生业务故障的故障类型,确定所述数通设备所在的数通网络的网络故障类型。
在一些可行的实施方式中,故障检测服务器还可在确定数通设备发生业务故障后,根据数通设备发生业务故障的故障类型,确定数通设备所在的数通网络的网络故障类型。
以图8所示示意图为例,如图8所示,故障检测服务器同时接收了流量守恒率、报文复制率、带宽利用率以及丢弃报文数。故障检测服务器按照预定周期接收后,可将所接收采集的上述指标绘制成如图8所示的示意图。其中,故障检测服务器根据图8中曲线3表示的数通设备的流量守恒率确定该数通设备发生业务故障后,在监测到曲线1代表的报文复制率及曲线4代表的丢弃报文数大幅增加后,同时检测到曲线2代表的带宽利用率大幅增加后,可确定该数通设备正遭受广播风波攻击,进一步的,当故障检测服务器同时在多个数通设备上监测到上述指标的变化趋势时,则可确定多个数通设备所在的数据通信网络出现了二层环路网络故障。
步骤S406,若所述故障检测服务器确定所述数通设备发生业务故障后,所述故障检测服务器向后台设备发送告警消息,所述告警消息包括所述数通设备的设备信息。
在一些可行的实施方式中,当故障检测服务器确定数通设备发生业务故障后,可向后台设备发送告警消息,该告警消息可包括数通设备的设备信息及具体的数通设备发生的业务故障,或者,确定的数通设备有可能发生的多种业务故障,告警消息还可包括其确定的数据通信网络发生的网络故障等。从而能够使维护人员通过后台设备对数据通信网络中的业务故障进行快速定位并进行维护。
可见,通过上述方式,故障检测服务器能够确定数通设备在处理各项业务的业务运行状态以及整体业务运行状态,进而,通过上述KPI能够快速对数通设备以及数通设备所在的数据通信网络进行业务故障定界及定位。
下面还提供用于实施上述方案的相关装置。
请参见图9,图9为本申请实施例提供的一种数通设备的单元组成示意图。数通设备900可包括:第一统计单元901、第一确定单元902、上传单元903。
第一统计单元901,用于统计通过物理接口接收的报文数量x1、通过所述物理接口发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2
第一确定单元902,用于通过以下公式确定所述数通设备的流量守恒率r1
r 1 = y 1 + y 2 - z 1 x 1 + x 2 ;
上传单元903,用于将所述流量守恒率r1上传至所述数据通信网络中的故障检测服务器上,所述流量守恒率r1用以表征所述数通设备的业务整体的运行健康程度。
可选的,在本申请一些可能的实施方案中,数通设备900还包括:
第二确定单元904,用于通过以下公式确定所述数通设备的报文入出比r2
r 2 = x 1 y 1 ;
所述上传单元903,还用于将所述报文入出比r2上传至所述数据通信网络中的所述故障检测服务器上,所述报文入出比r2用以表征所述数通设备的报文入出的运行健康程度。
可选的,在本申请一些可能的实施方案中,数通设备900还包括:
第二统计单元905,用于统计所述数通设备复制完成的报文数量z2以及所述数通设备需要复制的报文数量z3
第三确定单元906,用于通过以下公式确定所述数通设备的报文复制率r3
r 3 = z 2 z 3 ;
所述上传单元903,还用于将所述报文复制率r3上传至所述数据通信网络中的所述故障检测服务器上,所述报文复制率r3用以表征所述数通设备的报文复制的运行健康程度。
可选的,在本申请一些可能的实施方案中,数通设备900还包括:
第三统计单元907,用于统计所述数通设备中的所有物理接口接收的报文字节数量byte1、所述所有物理接口发送的报文字节数量byte2以及所述所有物理接口的带宽之和SUMB
第四确定单元908,用于通过以下公式确定所述数通设备的带宽利用率r4
r 4 = byte 1 + byte 2 2 × SUM B ;
所述上传单元903,用于将所述报文复制率r4上传至所述数据通信网络中的所述故障检测服务器上,所述报文复制率r4用以表征所述数通设备的报文吞吐量的运行健康程度。
可选的,在本申请一些可能的实施方案中,数通设备900还包括:
第四统计单元909,用于根据所述通过所述物理接口接收的报文数量x1、所述通过所述物理接口发送的报文数量y1、所述复制增加的报文数量z1、所述接收到的与所述数通设备连接的主控板下发的报文数量x2、以及所述上传至所述主控板报文数量y2,统计报文丢弃数量;
所述上传单元903,还用于将所述报文丢弃数量上传至所述数据通信网络中的所述故障检测服务器上,所述报文丢弃数量用以表征所述数通设备的报文丢弃的运行健康程度。
举例来说,第一统计单元901用于执行图2所述实施例中步骤S201的方法;第一确定单元902用于执行图2所述实施例中步骤S202的方法;上传单元903用于执行图2所述实施例中步骤S203的方法。
举例来说,第一统计单元901还用于执行图3所述实施例中步骤S301的方法;第一确定单元902还用于执行图3所述实施例中步骤S302的方法;第二确定单元904用于执行图3所述实施例中步骤S303的方法;第四统计单元909用于执行图3所述实施例中步骤S304的方法;第二统计单元905用于执行图3所述实施例中步骤S305的方法;第三确定单元906用于执行图3所述实施例中步骤S306的方法;第三统计单元907用于执行图3所述实施例中步骤S307的方法;第四确定单元908用于执行图3所述实施例中步骤S308的方法;上传单元903用于执行图3所述实施例中步骤S309的方法。
举例来说,以上上传单元903以通过数通设备900中配置的通信接口向故障检测服务器或其他数通设备发送报文、信息等。上述通信接口为有线接口或无线接口。
请参见图10,图10为本申请实施例提供的一种故障检测服务器的单元组成示意图。故障检测服务器1000可包括:接收单元1001、第一确定单元1002;
接收单元1001,用于接收数通设备上传的流量守恒率,所述流量守恒率由所述数通设备在统计接收的报文数量x1、发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2之后,通过公式确定所述数通设备的流量守恒率r1
第一确定单元1002,用于根据所述流量守恒率确定所述数通设备是否发生业务故障。
可选的,在本申请一些可能的实施方案中,所述接收单元1001,还用于接收所述数通设备上传的报文入出比、报文复制率、带宽利用率、报文丢弃数量中的至少一种;
所述故障检测服务器1000还包括:
第二确定单元1003,用于若所述第一确定单元确定所述数通设备发生业务故障,所述故障检测服务器根据所述接收到的所述报文入出比、所述报文复制率、所述带宽利用率、所述报文丢弃数量中的至少一种,确定所述数通设备发生业务故障的故障类型。
可选的,在本申请一些可能的实施方案中,所述故障检测服务器1000还包括:
第三确定单元1004,用于根据所述数通设备发生业务故障的故障类型,确定所述数通设备所在的数通网络的网络故障类型。
可选的,在本申请一些可能的实施方案中,所述故障检测服务器1000还包括:
发送单元1005,用于若所述第一确定单元1002确定所述数通设备发生业务故障后,所述故障检测服务器向后台设备发送告警消息,所述告警消息包括所述数通设备的设备信息。
举例说明,接收单元1001用于执行图2所述实施例中步骤S204的方法;第一确定单元1002用于执行图2所述实施例中步骤S205的方法。
举例说明,接收单元1001还用于执行图4所述实施例中步骤S401~S402的方法;第一确定单元1002用于执行图4所述实施例中步骤S403的方法;第二确定单元1003用于执行图4所述实施例中步骤S404的方法;第三确定单元1004用于执行图4所述实施例中步骤S405的方法;发送单元1005用于执行图4所述实施例中步骤S406的方法。
举例来说,以上发送单元1005用以通过故障检测服务器1000中配置的通信接口向故障检测服务器或其他数通设备发送报文、信息等。以上接收单元1001用以通过故障检测服务器1000中配置的通信接口向数通设备或后台设备发送消息等。上述通信接口为有线接口或无线接口。
参照以上实施例,图9所示实施例中的数通设备900、图10所示实施例中的故障检测服务器1000是以单元的形式来呈现。这里的“单元”可以指特定应用集成电路(application-specific integrated circuit,ASIC),执行一个或多个软件或固件程序的处理器和存储器,集成逻辑电路,和/或其他可以提供上述功能的器件。
参见图11,图11为本申请实施例提供的一种数通设备的结构示意图。该数通设备1100包括存储单元1101、处理器1102、子卡1103、网络处理器1104、流量管理器1105及总线系统1106。所述存储单元1101、处理器1102、子卡1103、网络处理器1104及流量管理器1105通过所述总线系统1106耦合。所述存储单元1101用于存储指令,所述处理器1102用于执行所述指令。当所述处理器1102在执行所述指令时可根据所述指令执行本申请上述实施例中的图2或图3数据通信网络中业务故障检测方法。
其中,所述子卡1103包括至少一个物理接口,所述网络处理器1104包括至少一个网络处理单元,所述流量管理器1105包括至少一个流量管理芯片。
所述子卡1103包括的至少一个物理接口可在处理器1102的控制下与其他数通设备或通信网络(如交换网)进行通信;或者,所述子卡1103包括的至少一个物理接口可在网络处理器1104的控制下与主控板进行通信。
处理器1102还可称中央处理单元(CPU,Central Processing Unit)。存储单元1101可以包括只读存储器和随机存取存储器,并向处理器1102提供指令和数据等。存储单元1101的一部分还可包括非易失性随机存取存储器。具体的应用中数通设备1100的各组件例如通过总线系统耦合在一起。总线系统除了可包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统1106。上述本发明实施例揭示的方法可应用于处理器1102中,或由处理器1102实现。处理器1102可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1102中的硬件的集成逻辑电路或者软件形式的指令完成。其中,上述处理器1102可以是通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。处理器1102可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储单元1101,例如处理器1102可读取存储单元1101中的信息,结合其硬件完成上述方法的步骤。
参见图12,本申请实施例提供的故障检测服务器1200包括:存储单元1201、通信接口1202及与所述存储单元1201和通信接口1202耦合的处理器1203。所述存储单元1201用于存储指令,所述处理器1203用于执行所述指令,所述通信接口1202用于在所述处理器1203的控制下与其他设备进行通信。当所述处理器1203在执行所述指令时可根据所述指令执行本申请上述实施例中的图2或图4数据通信网络中业务故障检测方法。
处理器1203还可称中央处理单元(CPU,Central Processing Unit)。存储单元1201可以包括只读存储器和随机存取存储器,并向处理器1203提供指令和数据等。存储单元1201的一部分还可包括非易失性随机存取存储器。具体的应用中故障检测服务器1200的各组件例如通过总线系统耦合在一起。总线系统除了可包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统1202。上述本发明实施例揭示的方法可应用于处理器1203中,或由处理器1203实现。处理器1203可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1203中的硬件的集成逻辑电路或者软件形式的指令完成。其中,上述处理器1203可以是通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。处理器1203可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储单元1201,例如处理器1203可读取存储单元1202中的信息,结合其硬件完成上述方法的步骤。
在一些可能的实施方式中,故障检测服务器1200(或故障检测服务器1000)例如可为单个应用服务器或应用服务器集群。或故障检测服务器1200(或故障检测服务器1000)可部署于单个应用服务器或应用服务器集群之中。
参见图13,图13为本申请实施例提供的一种数据通信网络中业务故障检测系统的结构示意图。该系统1300包括至少一个数通设备1301以及至少一个故障检测服务器1302。其中,该系统1300可应用于数据通信网络中。所述至少一个数通设备1301能够执行本申请上述实施例中的图2或图3数据通信网络中业务故障检测方法。所述至少一个故障检测服务器1302能够执行本申请上述实施例中的图2或图4数据通信网络中业务故障检测方法。所述至少一个数通设备1301可包括上述实施例中的数通设备900或1100;所述至少一个故障检测服务器1302可包括上述实施例中的故障检测服务器1000或1200。
本发明实施例还提供了一种计算机存储介质,用于储存为上述数通设备所用的计算机软件指令,其包含用于执行上述方法实施例所涉及的计算机程序。
本发明实施例还提供了一种计算机存储介质,用于储存为上述故障检测服务器所用的计算机软件指令,其包含用于执行上述方法实施例所涉及的计算机程序。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
本领域技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中,与其它硬件一起提供或作为硬件的一部分,也可以采用其他分布形式,如通过Internet或其它有线或无线电信系统。
本发明是参照本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本发明进行了描述,显而易见的,在不脱离本发明的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明,且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (20)

1.一种数据通信网络中业务故障检测方法,其特征在于,包括:
数通设备统计通过物理接口接收的报文数量x1、通过所述物理接口发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2
所述数通设备通过以下公式确定所述数通设备的流量守恒率r1
r 1 = y 1 + y 2 - z 1 x 1 + x 2 ;
所述数通设备将所述流量守恒率r1上传至所述数据通信网络中的故障检测服务器上,所述流量守恒率r1用以表征所述数通设备的业务整体的运行健康程度。
2.如权利要求1所述方法,其特征在于,所述数通设备统计通过物理接口接收的报文数量x1、通过所述物理接口发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2后,所述方法还包括:
所述数通设备通过以下公式确定所述数通设备的报文入出比r2
r 2 = x 1 y 1 ;
所述数通设备将所述报文入出比r2上传至所述数据通信网络中的所述故障检测服务器上,所述报文入出比r2用以表征所述数通设备的报文入出的运行健康程度。
3.如权利要求1或2所述方法,其特征在于,所述方法还包括:
所述数通设备统计所述数通设备复制完成的报文数量z2以及所述数通设备需要复制的报文数量z3
所述数通设备通过以下公式确定所述数通设备的报文复制率r3
r 3 = z 2 z 3 ;
所述数通设备将所述报文复制率r3上传至所述数据通信网络中的所述故障检测服务器上,所述报文复制率r3用以表征所述数通设备的报文复制的运行健康程度。
4.如权利要求1至3任一项所述方法,其特征在于,所述方法还包括:
所述数通设备统计所述数通设备中的所有物理接口接收的报文字节数量byte1、所述所有物理接口发送的报文字节数量byte2以及所述所有物理接口的带宽之和SUMB
所述数通设备通过以下公式确定所述数通设备的带宽利用率r4
r 4 = byte 1 + byte 2 2 × SUM B ;
所述数通设备将所述报文复制率r4上传至所述数据通信网络中的所述故障检测服务器上,所述报文复制率r4用以表征所述数通设备的报文吞吐量的运行健康程度。
5.如权利要求1至4任一项所述方法,其特征在于,所述数通设备统计通过物理接口接收的报文数量x1、通过所述物理接口发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2后,所述方法还包括:
所述数通设备根据所述通过所述物理接口接收的报文数量x1、所述通过所述物理接口发送的报文数量y1、所述复制增加的报文数量z1、所述接收到的与所述数通设备连接的主控板下发的报文数量x2、以及所述上传至所述主控板报文数量y2,统计报文丢弃数量;
所述数通设备将所述报文丢弃数量上传至所述数据通信网络中的所述故障检测服务器上,所述报文丢弃数量用以表征所述数通设备的报文丢弃的运行健康程度。
6.一种数据通信网络中业务故障检测方法,其特征在于,包括:
故障检测服务器接收数通设备上传的流量守恒率,所述流量守恒率由所述数通设备在统计接收的报文数量x1、发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2之后,通过公式确定所述数通设备的流量守恒率r1
所述故障检测服务器根据所述流量守恒率确定所述数通设备是否发生业务故障。
7.如权利要求6所述方法,其特征在于,所述方法还包括:
所述故障检测服务器接收所述数通设备上传的报文入出比、报文复制率、带宽利用率、报文丢弃数量中的至少一种;
所述故障检测服务器根据所述流量守恒率确定所述数通设备是否发生业务故障后,所述方法还包括:
若所述故障检测服务器确定所述数通设备发生业务故障,所述故障检测服务器根据所述接收到的所述报文入出比、所述报文复制率、所述带宽利用率、所述报文丢弃数量中的至少一种,确定所述数通设备发生业务故障的故障类型。
8.如权利要求7所述方法,其特征在于,所述故障检测服务器根据所述接收到的所述报文入出比、所述报文复制率、所述带宽利用率、所述报文丢弃数量中的至少一种,确定所述数通设备发生业务故障的故障类型之后,所述方法还包括:
所述故障检测服务器根据所述数通设备发生业务故障的故障类型,确定所述数通设备所在的数通网络的网络故障类型。
9.如权利要求6至8任一项所述方法,其特征在于,所述故障检测服务器根据所述流量守恒率确定所述数通设备是否发生业务故障后,所述方法还包括:
若所述故障检测服务器确定所述数通设备发生业务故障后,所述故障检测服务器向后台设备发送告警消息,所述告警消息包括所述数通设备的设备信息。
10.一种数通设备,其特征在于,包括:
第一统计单元,用于统计通过物理接口接收的报文数量x1、通过所述物理接口发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2
第一确定单元,用于通过以下公式确定所述数通设备的流量守恒率r1
r 1 = y 1 + y 2 - z 1 x 1 + x 2 ;
上传单元,用于将所述流量守恒率r1上传至所述数据通信网络中的故障检测服务器上,所述流量守恒率r1用以表征所述数通设备的业务整体的运行健康程度。
11.如权利要求10所述数通设备,其特征在于,还包括:
第二确定单元,用于通过以下公式确定所述数通设备的报文入出比r2
r 2 = x 1 y 1 ;
所述上传单元,还用于将所述报文入出比r2上传至所述数据通信网络中的所述故障检测服务器上,所述报文入出比r2用以表征所述数通设备的报文入出的运行健康程度。
12.如权利要求10或11所述数通设备,其特征在于,还包括:
第二统计单元,用于统计所述数通设备复制完成的报文数量z2以及所述数通设备需要复制的报文数量z3
第三确定单元,用于通过以下公式确定所述数通设备的报文复制率r3
r 3 = z 2 z 3 ;
所述上传单元,还用于将所述报文复制率r3上传至所述数据通信网络中的所述故障检测服务器上,所述报文复制率r3用以表征所述数通设备的报文复制的运行健康程度。
13.如权利要求10至12任一项所述数通设备,其特征在于,还包括:
第三统计单元,用于统计所述数通设备中的所有物理接口接收的报文字节数量byte1、所述所有物理接口发送的报文字节数量byte2以及所述所有物理接口的带宽之和SUMB
第四确定单元,用于通过以下公式确定所述数通设备的带宽利用率r4
r 4 = byte 1 + byte 2 2 × SUM B ;
所述上传单元,用于将所述报文复制率r4上传至所述数据通信网络中的所述故障检测服务器上,所述报文复制率r4用以表征所述数通设备的报文吞吐量的运行健康程度。
14.如权利要求10至13任一项所述数通设备,其特征在于,还包括:
第四统计单元,用于根据所述通过所述物理接口接收的报文数量x1、所述通过所述物理接口发送的报文数量y1、所述复制增加的报文数量z1、所述接收到的与所述数通设备连接的主控板下发的报文数量x2、以及所述上传至所述主控板报文数量y2,统计报文丢弃数量;
所述上传单元,还用于将所述报文丢弃数量上传至所述数据通信网络中的所述故障检测服务器上,所述报文丢弃数量用以表征所述数通设备的报文丢弃的运行健康程度。
15.一种故障检测服务器,其特征在于,包括:
接收单元,用于接收数通设备上传的流量守恒率,所述流量守恒率由所述数通设备在统计接收的报文数量x1、发送的报文数量y1、复制增加的报文数量z1、接收到的与所述数通设备连接的主控板下发的报文数量x2以及上传至所述主控板报文数量y2之后,通过公式确定所述数通设备的流量守恒率r1
第一确定单元,用于根据所述流量守恒率确定所述数通设备是否发生业务故障。
16.如权利要求15所述故障检测服务器,其特征在于,
所述接收单元,还用于接收所述数通设备上传的报文入出比、报文复制率、带宽利用率、报文丢弃数量中的至少一种;
所述故障检测服务器还包括:
第二确定单元,用于若所述第一确定单元确定所述数通设备发生业务故障,所述故障检测服务器根据所述接收到的所述报文入出比、所述报文复制率、所述带宽利用率、所述报文丢弃数量中的至少一种,确定所述数通设备发生业务故障的故障类型。
17.如权利要求16所述故障检测服务器,其特征在于,还包括:
第三确定单元,用于根据所述数通设备发生业务故障的故障类型,确定所述数通设备所在的数通网络的网络故障类型。
18.如权利要求16至17任一项所述故障检测服务器,其特征在于,还包括:
发送单元,用于若所述第一确定单元确定所述数通设备发生业务故障后,所述故障检测服务器向后台设备发送告警消息,所述告警消息包括所述数通设备的设备信息。
19.一种数通设备,其特征在于,包括:存储单元、处理器、子卡、网络处理器、流量管理器及总线系统;
所述存储单元、处理器、子卡、网络处理器及流量管理器通过所述总线系统耦合;
所述子卡包括至少一个物理接口,所述网络处理器包括至少一个网络处理单元,所述流量管理器包括至少一个流量管理芯片;
所述存储单元用于存储指令,所述处理器用于执行所述指令;
其中,所述处理器执行所述指令时执行如权利要求1至5任一项所述方法中的步骤。
20.一种数据通信网络中业务故障检测系统,其特征在于,包括至少一个数通设备以及至少一个故障检测服务器;
所述至少一个数通设备包括如权利要求10至14任一项所述数通设备;
所述至少一个故障检测服务器包括如权利要求15至18任一项所述故障检测服务器。
CN201610615938.3A 2016-07-30 2016-07-30 数据通信网络中业务故障检测方法、相关装置及系统 Active CN106302001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610615938.3A CN106302001B (zh) 2016-07-30 2016-07-30 数据通信网络中业务故障检测方法、相关装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610615938.3A CN106302001B (zh) 2016-07-30 2016-07-30 数据通信网络中业务故障检测方法、相关装置及系统

Publications (2)

Publication Number Publication Date
CN106302001A true CN106302001A (zh) 2017-01-04
CN106302001B CN106302001B (zh) 2020-02-14

Family

ID=57663471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610615938.3A Active CN106302001B (zh) 2016-07-30 2016-07-30 数据通信网络中业务故障检测方法、相关装置及系统

Country Status (1)

Country Link
CN (1) CN106302001B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108667635A (zh) * 2017-03-27 2018-10-16 腾讯科技(深圳)有限公司 一种容灾处理的方法、设备及系统
CN110138600A (zh) * 2019-04-28 2019-08-16 北京大米科技有限公司 一种提示信息输出方法、装置、存储介质及服务器
CN112702226A (zh) * 2020-12-16 2021-04-23 杭州迪普科技股份有限公司 环路检测方法、装置、设备及计算机可读存储介质
CN113179171A (zh) * 2020-01-24 2021-07-27 华为技术有限公司 故障检测方法、装置及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024005822A1 (en) * 2022-06-30 2024-01-04 Rakuten Mobile, Inc. Network monitoring system and method of using

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130044626A1 (en) * 2007-12-27 2013-02-21 Exalt Communications Incorporated Adaptive Multi-Service Data Framing
CN103986622A (zh) * 2014-05-27 2014-08-13 重庆邮电大学 一种基于多核技术的网络吞吐率并行化测量方法
WO2015161133A1 (en) * 2014-04-16 2015-10-22 Apsi Wifi, Llc Reduction of network congestion
CN105656715A (zh) * 2015-12-30 2016-06-08 中国银联股份有限公司 用于监测云计算环境下网络设备的状态的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130044626A1 (en) * 2007-12-27 2013-02-21 Exalt Communications Incorporated Adaptive Multi-Service Data Framing
WO2015161133A1 (en) * 2014-04-16 2015-10-22 Apsi Wifi, Llc Reduction of network congestion
CN103986622A (zh) * 2014-05-27 2014-08-13 重庆邮电大学 一种基于多核技术的网络吞吐率并行化测量方法
CN105656715A (zh) * 2015-12-30 2016-06-08 中国银联股份有限公司 用于监测云计算环境下网络设备的状态的方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108667635A (zh) * 2017-03-27 2018-10-16 腾讯科技(深圳)有限公司 一种容灾处理的方法、设备及系统
CN110138600A (zh) * 2019-04-28 2019-08-16 北京大米科技有限公司 一种提示信息输出方法、装置、存储介质及服务器
CN113179171A (zh) * 2020-01-24 2021-07-27 华为技术有限公司 故障检测方法、装置及系统
WO2021147371A1 (zh) * 2020-01-24 2021-07-29 华为技术有限公司 故障检测方法、装置及系统
CN113179171B (zh) * 2020-01-24 2023-04-18 华为技术有限公司 故障检测方法、装置及系统
CN112702226A (zh) * 2020-12-16 2021-04-23 杭州迪普科技股份有限公司 环路检测方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN106302001B (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN106302001A (zh) 数据通信网络中业务故障检测方法、相关装置及系统
EP3154224B1 (en) Systems and methods for maintaining network service levels
US7940685B1 (en) Method and apparatus for monitoring a network
CN106713074B (zh) 基于业务内容的数据网络质量分段探测方法及系统
US8688828B2 (en) Session layer for monitoring utility application traffic
CN107005868A (zh) 改进的蜂窝体验质量的系统和方法
EP4002769A1 (en) System and method for evaluating transmission performance related to network node and related device
CN108123824A (zh) 一种网络故障检测方法及装置
CN113411221B (zh) 电力通信网络故障仿真验证方法、装置、设备和存储介质
CN107819645A (zh) 一种基于软件仿真的物联网测试方法
CN107466079A (zh) 自动中继切换方法及装置
CN106506242A (zh) 一种网络异常行为和流量监测的精确定位方法与系统
US20100110918A1 (en) Method and apparatus for performance monitoring in a communications network
US10708155B2 (en) Systems and methods for managing network operations
CN105791008A (zh) 确定丢包位置和原因的方法和装置
CN103023815B (zh) 聚合链路负载分担方法及装置
CN107566222A (zh) 一种计算丢包率的方法及装置
CN101145977A (zh) 一种IP数据网Qos监测系统及其测量方法
CN105830484A (zh) 用于评估网络性能的方法和系统
US8036132B1 (en) Systems, devices, and methods for determining network failures
CN107579981A (zh) 一种网络流量监控方法及系统
CN109964450B (zh) 一种确定共享风险链路组的方法及装置
CN114240031A (zh) 一种面向电力业务的5g网络承载质量评估方法
US9306822B2 (en) Method and system for silent trunk failure detection
CN110113222A (zh) 一种链路带宽利用率获取方法和装置、及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211224

Address after: 450046 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu wisdom Island, Zhengdong New Area, Zhengzhou City, Henan Province

Patentee after: Super fusion Digital Technology Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.