CN114760190A - 一种面向服务的融合网络性能异常检测方法 - Google Patents

一种面向服务的融合网络性能异常检测方法 Download PDF

Info

Publication number
CN114760190A
CN114760190A CN202210375177.4A CN202210375177A CN114760190A CN 114760190 A CN114760190 A CN 114760190A CN 202210375177 A CN202210375177 A CN 202210375177A CN 114760190 A CN114760190 A CN 114760190A
Authority
CN
China
Prior art keywords
data
performance
index
determining
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210375177.4A
Other languages
English (en)
Other versions
CN114760190B (zh
Inventor
杨杨
孙寅栋
胡皓
龙雨寒
龚兴乐
曲珍莹
何晔辰
高志鹏
芮兰兰
喻鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210375177.4A priority Critical patent/CN114760190B/zh
Publication of CN114760190A publication Critical patent/CN114760190A/zh
Application granted granted Critical
Publication of CN114760190B publication Critical patent/CN114760190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种面向服务的融合网络性能异常检测方法,所述方法包括:基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值;第一数据为服务异常发生时间前的融合网络性能数据,第二数据为服务异常发生时间后的融合网络性能数据;基于第二数据中的性能指标的异常程度值,确定异常指标根因。本发明提供的一种面向服务的融合网络性能异常检测方法,通过在服务发生异常前后的时间窗口内采集融合网络性能数据的各项性能指标,基于不同类型性能指标在正常区间中的概率分布,确定所有性能指标的异常程度值,从而输出异常指标根因,实现有效地定位异常指标根因。

Description

一种面向服务的融合网络性能异常检测方法
技术领域
本发明涉及网络信息技术领域,尤其涉及一种面向服务的融合网络性能异常检测方法。
背景技术
目前的大型在线服务系统通常是一个复杂的分布式系统,由成百上千的模块(例如前端服务、缓存、业务、数据库等)组成。每个模块都可以部署在多个数据中心的多台机器上,每台机器上可以有许多个性能指标。由于软件服务的失败直接影响用户体验,运维人员需要监控每个服务的服务层面的关键性能指标(如响应时间)和设备层面的性能指标(如CPU使用率),通过确保性能指标值处于正常范围的方式来确保在线服务正常运行。为了进一步检测融合网络性能的异常,运维人员需要定位异常指标的根因。
现阶段,面向服务的融合网络性能异常检测和异常指标根因定位算法大多未考虑不同性能指标波动程度的差异性,基于波动差值衡量性能指标变化程度的算法在不同指标波动程度不一样的场景下表现较差,例如,系统指标CPU使用率和磁盘IO等待时间的波动程度并不一致。
发明内容
本发明提供一种面向服务的融合网络性能异常检测方法,用以解决现有技术中异常指标根因定位算法未考虑不同性能指标波动程度的差异性的缺陷,实现有效地定位异常指标根因。
本发明提供一种面向服务的融合网络性能异常检测方法,包括:
基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值;所述第一数据为服务异常发生时间前的融合网络性能数据,所述第二数据为服务异常发生时间后的融合网络性能数据;
基于所述第二数据中的性能指标的异常程度值,确定异常指标根因。
在一些实施例中,所述基于所述第二数据中的性能指标的异常程度值,确定异常指标根因,包括:
基于所述第二数据中的性能指标的异常程度值,确定所述第二数据中的目标性能指标;
基于所述目标性能指标,以及所述第二数据中的性能指标之间的因果关系,确定异常指标根因。
在一些实施例中,所述基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值之前,还包括:
基于第一数据中的性能指标的类型,确定对应的核密度函数;
基于所述核密度函数,确定所述第一数据中的性能指标的概率分布。
在一些实施例中,所述基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值,包括:
基于第一数据中的性能指标的概率分布,确定所述第二数据中的性能指标的上溢概率和下溢概率;
基于所述上溢概率和所述下溢概率,确定第二数据中的性能指标的异常程度值。
在一些实施例中,所述基于所述上溢概率和所述下溢概率,确定第二数据中的性能指标的异常程度值,包括:
基于所述上溢概率和所述下溢概率,确定所述第二数据中的性能指标的向上波动程度值和向下波动程度值;
基于所述向上波动程度值的均值和向下波动程度值的均值,确定第二数据中的性能指标的异常程度值。
在一些实施例中,所述基于所述第二数据中的性能指标的异常程度值,确定所述第二数据中的目标性能指标,包括:
基于所述第二数据中的性能指标的异常程度值,对所述第二数据中的性能指标进行降序排序;
将排名前预设数量的性能指标,确定为目标性能指标。
本发明还提供一种面向服务的融合网络性能异常检测装置,包括:
确定模块,用于基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值;所述第一数据为服务异常发生时间前的融合网络性能数据,所述第二数据为服务异常发生时间后的融合网络性能数据;
检测模块,用于基于所述第二数据中的性能指标的异常程度值,确定异常指标根因。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述面向服务的融合网络性能异常检测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述面向服务的融合网络性能异常检测方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述面向服务的融合网络性能异常检测方法。
本发明提供的一种面向服务的融合网络性能异常检测方法,通过在服务发生异常前后的时间窗口内采集融合网络性能数据的各项性能指标,基于不同类型性能指标在正常区间中的概率分布,确定所有性能指标的异常程度值,从而输出异常指标根因,实现有效地定位异常指标根因。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的面向服务的融合网络性能异常检测方法的流程示意图之一;
图2是本发明提供的面向服务的融合网络性能异常检测方法的流程示意图之二;
图3是本发明提供的面向服务的融合网络性能异常检测方法的概率分布示意图;
图4是本发明提供的面向服务的融合网络性能异常检测方法装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图5描述本发明提供的一种面向服务的融合网络性能异常检测方法及装置。
图1是本发明提供的面向服务的融合网络性能异常检测方法的流程示意图之一,参考图1,本发明提供的面向服务的融合网络性能异常检测方法,可以包括:
步骤110、基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值;第一数据为服务异常发生时间前的融合网络性能数据,第二数据为服务异常发生时间后的融合网络性能数据;
步骤120、基于第二数据中的性能指标的异常程度值,确定异常指标根因。
需要说明的是,本发明提供的面向服务的融合网络性能异常检测方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本发明不作具体限定。
在步骤110中,基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值。
采集网络异常发生时间前后的性能数据,第一数据为服务异常发生时间前的融合网络性能数据,第二数据为服务异常发生时间后的融合网络性能数据。
融合网络性能数据的性能指标可以包括时延数据、设备处理器负载数据和内存数据等。根据采集的网络异常发生时间前后的性能数据,得到特征集合,即融合网络性能指标数据的特征向量。
例如,用Tstart表示服务异常发生时间,用Tend表示异常结束时间。则以Tstart为结束时间,而窗口大小为w1的时间窗口,[Tstart-w1,Tstart]可以表示异常发生前指标的缓慢变化。
以Tstart为开始时间,而窗口大小为w2的时间窗口,[Tstart,Tstart+w2]内表示异常发生后的一系列异常指标值,其中,w2≤Tend-Tstart
从[Tstart-w1,Tstart]和[Tstart,Tstart+w2]内分别获取到性能数据{xi}和{xj},其中{xi}是在异常发生之前的一系列性能指标,{xj}是在异常发生之后的性能指标。
基于第一数据中的每个类型的性能指标的概率分布,即性能指标在服务正常运行时间中的概率分布。基于此概率分布,可以计算第二数据中的每个类型的性能指标向上波动和向下波动的概率,从而得到所有指标的异常程度值。
在步骤120中,基于第二数据中的性能指标的异常程度值,确定异常指标根因。
根据第二数据中的每个类型的性能指标的异常程度值,以异常程度值为标准进行排序,从而可以输出网络异常指标的根因。
本发明实施例提供的面向服务的融合网络性能异常检测方法,通过在服务发生异常前后的时间窗口内采集融合网络性能数据的各项性能指标,基于不同类型性能指标在正常区间中的概率分布,确定所有性能指标的异常程度值,从而输出异常指标根因,实现有效地定位异常指标根因。
在一些实施例中,基于第二数据中的性能指标的异常程度值,确定异常指标根因,包括:
基于第二数据中的性能指标的异常程度值,确定第二数据中的目标性能指标;
基于目标性能指标,以及第二数据中的性能指标之间的因果关系,确定异常指标根因。
基于第二数据中的性能指标的异常程度值,确定第二数据中的目标性能指标,即基于性能指标的异常程度值可输出初步异常指标的根因。
然后对第二数据中的性能指标进行因果关系分析,计算所有性能指标之间的因果关系,将与目标性能指标具有因果关系的性能指标并入根因列表中,得到最终的异常指标根因。
例如,
Figure BDA0003590084910000071
表示第i个时间序列,第t个时间点的性能指标数据集,其中t∈[0,T],i∈[1,N],T为设定的时间窗口,N表示存在N个性能指标时间序列。
定义
Figure BDA0003590084910000072
其中
Figure BDA0003590084910000073
代表
Figure BDA0003590084910000074
的根因节点,在因果图中即为
Figure BDA0003590084910000075
的祖先节点。然后计算N个指标且时间窗口为T的N*T个指标间的因果关系时,用GP表示此因果图。
在预设的显著性水平α下,对
Figure BDA0003590084910000076
Figure BDA0003590084910000077
进行条件独立性测试。在给定变量集
Figure BDA0003590084910000078
中,其中
Figure BDA0003590084910000079
若检测结果是
Figure BDA00035900849100000710
Figure BDA00035900849100000711
独立,则表示
Figure BDA00035900849100000712
Figure BDA00035900849100000713
之间没有因果关系,因此从
Figure BDA00035900849100000714
移除
Figure BDA00035900849100000715
条件独立性测试可使用卡方检验进行,其计算公式如下:
Figure BDA00035900849100000716
重复以上步骤,直到从
Figure BDA00035900849100000717
移除所有与
Figure BDA00035900849100000718
不相关联的父节点,并且变量集S没有剩余变量可以添加时,进入以下步骤。
Figure BDA00035900849100000719
所代表的因果图GP中,判断是否存在边
Figure BDA00035900849100000720
Figure BDA00035900849100000721
若存在,则添加Ij到Ii的有向边,最终得到包含N个节点的因果图Gresult
根据因果图Gresult的结果,查找与目标性能指标具有因果关系的其他性能指标,将其并入到异常指标根因列表中。
本发明实施例提供的面向服务的融合网络性能异常检测方法,通过基于时间窗口的因果分析算法,通过时间窗口和中间结构分析指标间的依赖关系,解决了指标分布特点不同导致因果关系无法学习的问题,通过对异常指标进行因果分析,完善异常指标的根因列表,更加适用于性能指标分布特点多样、波动程度不一的应用场景。
在一些实施例中,基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值之前,还包括:
基于第一数据中的性能指标的类型,确定对应的核密度函数;
基于核密度函数,确定第一数据中的性能指标的概率分布。
融合网络性能数据中的各项性能指标的具有不同的分布特点,故假定所有指标服从同一分布并不可取。因此可以采用核密度估计的方法,计算不同类型性能指标在正常区间内的概率分布,对于第一数据中的性能指标{xi},其概率分布的表达式如下:
Figure BDA0003590084910000081
其中,n表示{xi}中的样本数量,K(·)为核函数,包括高斯函数、余弦函数等,通常具有对称性,并且满足∫K(x)dx=1,h为核函数带宽,用于平衡核密度估计的偏差以及方差。
针对不同的性能指标的类型,选择不同的核密度函数。例如,Beta分布适合描述比例类型的随机变量,如CPU空闲比率CPU_IDLE;Poisson分布适合描述在单位时间内随机事件发生的次数,如单位时间内内存溢出频率SYS_OOM。
当性能指标不符合上述两种分布时,采用高斯核函数,其表达式如下:
Figure BDA0003590084910000082
本发明实施例提供的面向服务的融合网络性能异常检测方法,通过根据融合网络性能指标的分布特点,选择不同的核函数进行概率分布的计算,与传统的基于统计的性能指标异常检测算法相比,本发明实施例提供的面向服务的融合网络性能异常检测方法能够更好地适应不同性能指标的分布特点和指标在趋势性以及周期性上的变化。
在一些实施例中,基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值,包括:
基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的上溢概率和下溢概率;
基于上溢概率和下溢概率,确定第二数据中的性能指标的异常程度值。
基于第一数据中的性能指标的概率分布,即指标{xi}的概率分布表达式,可以计算单点的上溢概率和下溢概率,即该点的上下波动程度,其计算公式如下:
上溢概率:
Figure BDA0003590084910000091
下溢概率:
Figure BDA0003590084910000092
第二数据中的性能指标{xj}是相互之间独立,且是与{xi}同分布的随机变量产生的样本,则其集合概率的计算公式为:
Figure BDA0003590084910000093
Figure BDA0003590084910000094
其中Pup({xj}|{xi})表示集合上溢概率,Pdown({xj}|{xi})表示集合下溢概率,l表示{xj}内数据的数量。
当X比xj大的概率很小时,说明xj太大,即表示指标在异常区间内发生了突增。
当X比xj小的概率很小时,说明xj太小,即表示指标在异常区间内发生了突降。
本发明实施例提供的面向服务的融合网络性能异常检测方法,通过使用不同的核函数计算各性能指标在网络设备正常运行时间中的概率分布,基于此概率分布计算指标在网络设备异常发生时间中的上溢概率和下溢概率,继而确定第二数据中的性能指标的异常程度值,进一步实现了有效识别异常指标根因。
在一些实施例中,基于上溢概率和下溢概率,确定第二数据中的性能指标的异常程度值,包括:
基于上溢概率和下溢概率,确定第二数据中的性能指标的向上波动程度值和向下波动程度值;
基于向上波动程度值的均值和向下波动程度值的均值,确定第二数据中的性能指标的异常程度值。
为了更加清晰、直观地展现指标的异常程度,可以对上溢概率和下溢概率的计算结果取对数,由于概率的对数都为负数,所以可将概率对数的负数作为该指标的波动程度,其计算公式如下:
Figure BDA0003590084910000101
Figure BDA0003590084910000102
其中,Wu为该指标的向上波动程度值,Wd为该指标的向下波动程度值。
显然,不同指标间的采样频率并不一致,因此直接用式(8)和式(9)不能体现平均的波动情况,这里还需对指标的上下波动程度值取算术平均数,因此最终的向上波动程度值Wup和向下波动程度值Wdown分别为:
Wup=Wu/l (10)
Wdown=Wd/l (11)
从而,某网络共有n个性能指标时,那么此网络所对应的波动程度向量即为
Figure BDA0003590084910000103
在某服务的所有网络设备{S}上,对于某性能指标k,用Wup k表示
Figure BDA0003590084910000104
的平均值,用Wdown k表示
Figure BDA0003590084910000105
的平均值,然后用Wdown k和Wup k中的较大值
Figure BDA0003590084910000106
来表示性能指标k的最大变化程度,即异常程度值。
本发明实施例提供的面向服务的融合网络性能异常检测方法,通过基于此概率分布计算指标在网络设备异常发生时间中的上溢概率和下溢概率,继而得到设备性能指标的波动程度向量,再综合考虑运行同一服务的所有设备的性能指标波动程度,输出异常指标根因,进一步实现了有效识别异常指标根因。
在一些实施例中,基于第二数据中的性能指标的异常程度值,确定第二数据中的目标性能指标,包括:
基于第二数据中的性能指标的异常程度值,对第二数据中的性能指标进行降序排序;
将排名前预设数量的性能指标,确定为目标性能指标。
根据第二数据中的每类性能指标的异常程度值,对性能指标进行降序排序。
可理解地,异常程度值越大,则其对应的性能指标的异常程度越大。将排名为前预设数量的性能指标,确定为目标性能指标,即可初步输出异常指标的根因。
本发明实施例提供的面向服务的融合网络性能异常检测方法,通过性能指标的异常程度值,确定为目标性能指标,即可初步确定异常指标的根因,为确定最终异常指标的根因打下了基础。
图2是本发明提供的面向服务的融合网络性能异常检测方法的流程示意图之二,参照图2,本发明提供的面向服务的融合网络性能异常检测方法,可以包括:
步骤210、采集服务异常发生时间前后的融合网络性能指标特征数据。
采集网络异常发生时间前后的性能指标数据,包括时延数据、设备处理器负载数据、内存数据等,得到特征集合,即融合网络性能指标数据的特征向量。
步骤220、采用核密度估计的方法计算不同类型性能指标的概率分布。
根据不同类型性能指标的分布特点,使用不同的核密度函数计算所有性能指标在正常区间内的概率分布。
步骤230、根据概率分布计算指标的异常程度,并输出初步异常指标根因。
根据计算的概率分布结果,分别计算出各性能指标的上溢概率和下溢概率,从而计算出指标的向上波动程度和向下波动程度,即该指标的异常程度,并基于异常程度输出初步异常指标的根因。
步骤240、对所有性能指标进行因果关系分析,将异常程度较高指标的级联依赖指标并入根因列表。
利用本发明提出的因果分析算法,计算所有指标间的因果关系,对于异常程度靠前的指标,将与它们具有因果关系的其他指标并入根因列表中,得到最终的异常指标根因。
本发明针对融合网络性能异常检测和异常指标根因定位的问题,聚焦于融合网络性能指标分布特点多样、不同性能指标波动程度不一两大问题。采集服务发生异常时间前后的融合网络性能指标数据,构成融合网络性能指标特征集合,并根据不同性能指标的特点,采用不同的核函数计算指标在服务正常运行时间中的概率分布。基于此概率分布,计算所有性能指标的异常程度,并综合考虑某服务的所有设备波动程度,对其进行指标波动程度排序,从而可以输出网络异常指标的根因,另外,使用因果分析算法对异常程度较高的指标进行因果关系推理,将与异常指标具有级联依赖关系的其他指标并入根因列表,相比于传统的异常指标根因定位算法,更加适用于融合网络性能指标分布特点多样、波动程度不一的场景。本发明可以帮助运维人员更好地检查、监控和管理网络服务的运行状态,有针对性地对网络的异常指标展开措施,提升主动运维的效率。
下面结合具体场景,对本发明提供的面向服务的融合网络性能异常检测方法进行详细描述,具体步骤如下:
S1、采集服务异常发生时间前后的不同性能指标数据,即[Tstart-w1,Tstart+w2]时间窗口内的性能指标集合。w1和w2的取值此处设定为60分钟。采集的性能指标以某网络设备的CPU_iowait_time(CPU等待io时间百分比)为例,采集频率为10分钟一次,采集的性能指标集合如表1所示:
表1 性能指标数据集合
采样点 CPU_iowait_time
f1 0.06
f2 0.05
f3 0.1
f4 0.09
f5 0.15
f6 0.2
f7 0.18
f8 0.25
f9 0.3
f10 0.19
f11 0.35
f12 0.21
S2、其中,采样点f1-f6的数据构成正常时间区间的CPU_iowait_time数据集合{xi},计算其概率分布函数,其中核函数使用beta分布,性能指标CPU_iowait_time概率分布函数如图3所示。
S3、对于异常时间区间的CPU_iowait_time数据集合{xj},根据S2计算的概率分布函数计算其各点的上溢概率P(X≥xj|{xi})和下溢概率P(X≤xj|{xi}),以下溢概率为例,计算结果如表2所示:
表2 异常时区单点下溢概率
Figure BDA0003590084910000131
Figure BDA0003590084910000141
S4、根据S3的结果,计算集合上溢概率Pup({xj}|{xi})和集合下溢概率Pdown({xj}|{xi}),计算结果如表3所示:
表3 集合上溢概率和集合下溢概率
P<sub>up</sub> 1.7406*10<sup>-7</sup>
P<sub>down</sub> 0.5379
S5、对上溢概率和下溢概率取负对数,并求算术平均数,得到向上波动程度Wup和向下波动程度Wdown,计算结果如表4所示:
表4 向上波动程度和向下波动程度
W<sub>up</sub> 6.7593
W<sub>down</sub> 0.2693
使用相同方法计算其他性能指标,得到该网络设备的异常程度向量,在某一服务的所有网络设备上做如上计算,对结果进行排序,即可输出异常指标根因。对所有性能指标运行因果分析算法,根据因果图将与异常程度较高的10个指标有因果关系的其他指标并入根因列表。
本发明实施例提供的面向服务的融合网络性能异常检测方法,根据融合网络性能指标的特点,选择不同的核函数进行概率分布的计算。与传统的基于统计的性能指标异常检测算法相比,本方法能够更好地适应不同性能指标的分布特点和指标在趋势性以及周期性上的变化。
并且,为了解决不同性能指标波动程度不一的问题,本发明首先通过使用不同的核函数计算各性能指标在网络设备正常运行时间中的概率分布,基于此概率分布计算指标在网络设备异常发生时间中的上溢概率和下溢概率,继而得到设备性能指标的波动程度向量,再综合考虑运行同一服务的所有设备的性能指标波动程度,输出异常指标根因。
此外,考虑到现有因果推理算法主要是针对独立同分布的数据设计的,不能学习不同分布的指标间的因果关系,因此传统根因定位方法通常未对异常指标排序结果进行有效的因果分析。本发明提出的基于时间窗口的因果分析算法,通过时间窗口和中间结构分析指标间的依赖关系,解决了指标分布特点不同导致因果关系无法学习的问题,通过对异常指标进行因果分析,完善异常指标的根因列表,更加适用于性能指标分布特点多样、波动程度不一的应用场景。
下面对本发明提供的面向服务的融合网络性能异常检测装置进行描述,下文描述的面向服务的融合网络性能异常检测装置与上文描述的面向服务的融合网络性能异常检测方法可相互对应参照。
图4是本发明提供的面向服务的融合网络性能异常检测装置的结构示意图,参照图4,本发明提供的面向服务的融合网络性能异常检测装置,可以包括:
确定模块410,用于基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值;第一数据为服务异常发生时间前的融合网络性能数据,第二数据为服务异常发生时间后的融合网络性能数据;
检测模块420,用于基于第二数据中的性能指标的异常程度值,确定异常指标根因。
本发明提供的面向服务的融合网络性能异常检测装置,通过在服务发生异常前后的时间窗口内采集融合网络性能数据的各项性能指标,基于不同类型性能指标在正常区间中的概率分布,确定所有性能指标的异常程度值,从而输出异常指标根因,实现有效地定位异常指标根因。
在一些实施例中,检测模块420具体用于:
基于第二数据中的性能指标的异常程度值,确定第二数据中的目标性能指标;
基于目标性能指标,以及第二数据中的性能指标之间的因果关系,确定异常指标根因。
在一些实施例中,基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值之前,还包括:
基于第一数据中的性能指标的类型,确定对应的核密度函数;
基于核密度函数,确定第一数据中的性能指标的概率分布。
在一些实施例中,确定模块410具体用于:
基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值,包括:
基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的上溢概率和下溢概率;
基于上溢概率和下溢概率,确定第二数据中的性能指标的异常程度值。
在一些实施例中,基于上溢概率和下溢概率,确定第二数据中的性能指标的异常程度值,包括:
基于上溢概率和下溢概率,确定第二数据中的性能指标的向上波动程度值和向下波动程度值;
基于向上波动程度值的均值和向下波动程度值的均值,确定第二数据中的性能指标的异常程度值。
在一些实施例中,基于第二数据中的性能指标的异常程度值,确定第二数据中的目标性能指标,包括:
基于第二数据中的性能指标的异常程度值,对第二数据中的性能指标进行降序排序;
将排名前预设数量的性能指标,确定为目标性能指标。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行面向服务的融合网络性能异常检测方法,该方法包括:
基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值;第一数据为服务异常发生时间前的融合网络性能数据,第二数据为服务异常发生时间后的融合网络性能数据;
基于第二数据中的性能指标的异常程度值,确定异常指标根因。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的面向服务的融合网络性能异常检测方法,该方法包括:
基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值;第一数据为服务异常发生时间前的融合网络性能数据,第二数据为服务异常发生时间后的融合网络性能数据;
基于第二数据中的性能指标的异常程度值,确定异常指标根因。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的面向服务的融合网络性能异常检测方法,该方法包括:
基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值;第一数据为服务异常发生时间前的融合网络性能数据,第二数据为服务异常发生时间后的融合网络性能数据;
基于第二数据中的性能指标的异常程度值,确定异常指标根因。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种面向服务的融合网络性能异常检测方法,其特征在于,包括:
基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值;所述第一数据为服务异常发生时间前的融合网络性能数据,所述第二数据为服务异常发生时间后的融合网络性能数据;
基于所述第二数据中的性能指标的异常程度值,确定异常指标根因。
2.根据权利要求1所述的面向服务的融合网络性能异常检测方法,其特征在于,所述基于所述第二数据中的性能指标的异常程度值,确定异常指标根因,包括:
基于所述第二数据中的性能指标的异常程度值,确定所述第二数据中的目标性能指标;
基于所述目标性能指标,以及所述第二数据中的性能指标之间的因果关系,确定异常指标根因。
3.根据权利要求1所述的面向服务的融合网络性能异常检测方法,其特征在于,所述基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值之前,还包括:
基于第一数据中的性能指标的类型,确定对应的核密度函数;
基于所述核密度函数,确定所述第一数据中的性能指标的概率分布。
4.根据权利要求1所述的面向服务的融合网络性能异常检测方法,其特征在于,所述基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值,包括:
基于第一数据中的性能指标的概率分布,确定所述第二数据中的性能指标的上溢概率和下溢概率;
基于所述上溢概率和所述下溢概率,确定第二数据中的性能指标的异常程度值。
5.根据权利要求4所述的面向服务的融合网络性能异常检测方法,其特征在于,所述基于所述上溢概率和所述下溢概率,确定第二数据中的性能指标的异常程度值,包括:
基于所述上溢概率和所述下溢概率,确定所述第二数据中的性能指标的向上波动程度值和向下波动程度值;
基于所述向上波动程度值的均值和向下波动程度值的均值,确定第二数据中的性能指标的异常程度值。
6.根据权利要求2所述的面向服务的融合网络性能异常检测方法,其特征在于,所述基于所述第二数据中的性能指标的异常程度值,确定所述第二数据中的目标性能指标,包括:
基于所述第二数据中的性能指标的异常程度值,对所述第二数据中的性能指标进行降序排序;
将排名前预设数量的性能指标,确定为目标性能指标。
7.一种面向服务的融合网络性能异常检测装置,其特征在于,包括:
确定模块,用于基于第一数据中的性能指标的概率分布,确定第二数据中的性能指标的异常程度值;所述第一数据为服务异常发生时间前的融合网络性能数据,所述第二数据为服务异常发生时间后的融合网络性能数据;
检测模块,用于基于所述第二数据中的性能指标的异常程度值,确定异常指标根因。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述面向服务的融合网络性能异常检测方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述面向服务的融合网络性能异常检测方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述面向服务的融合网络性能异常检测方法。
CN202210375177.4A 2022-04-11 2022-04-11 一种面向服务的融合网络性能异常检测方法 Active CN114760190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210375177.4A CN114760190B (zh) 2022-04-11 2022-04-11 一种面向服务的融合网络性能异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210375177.4A CN114760190B (zh) 2022-04-11 2022-04-11 一种面向服务的融合网络性能异常检测方法

Publications (2)

Publication Number Publication Date
CN114760190A true CN114760190A (zh) 2022-07-15
CN114760190B CN114760190B (zh) 2023-06-20

Family

ID=82328303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210375177.4A Active CN114760190B (zh) 2022-04-11 2022-04-11 一种面向服务的融合网络性能异常检测方法

Country Status (1)

Country Link
CN (1) CN114760190B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115514627A (zh) * 2022-09-21 2022-12-23 深信服科技股份有限公司 一种故障根因定位方法、装置、电子设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502815A (zh) * 2016-10-20 2017-03-15 北京蓝海讯通科技股份有限公司 一种异常原因定位方法、装置和计算设备
US20180027004A1 (en) * 2016-07-19 2018-01-25 Cisco Technology, Inc. Multi-dimensional system anomaly detection
CN108923952A (zh) * 2018-05-31 2018-11-30 北京百度网讯科技有限公司 基于服务监控指标的故障诊断方法、设备及存储介质
CN111327435A (zh) * 2018-12-13 2020-06-23 中兴通讯股份有限公司 一种根因定位方法、服务器和存储介质
CN113392893A (zh) * 2021-06-08 2021-09-14 北京达佳互联信息技术有限公司 业务故障的定位方法、装置、存储介质及计算机程序产品
WO2021244415A1 (zh) * 2020-06-03 2021-12-09 华为技术有限公司 检测网络故障的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180027004A1 (en) * 2016-07-19 2018-01-25 Cisco Technology, Inc. Multi-dimensional system anomaly detection
CN106502815A (zh) * 2016-10-20 2017-03-15 北京蓝海讯通科技股份有限公司 一种异常原因定位方法、装置和计算设备
CN108923952A (zh) * 2018-05-31 2018-11-30 北京百度网讯科技有限公司 基于服务监控指标的故障诊断方法、设备及存储介质
CN111327435A (zh) * 2018-12-13 2020-06-23 中兴通讯股份有限公司 一种根因定位方法、服务器和存储介质
WO2021244415A1 (zh) * 2020-06-03 2021-12-09 华为技术有限公司 检测网络故障的方法和装置
CN113392893A (zh) * 2021-06-08 2021-09-14 北京达佳互联信息技术有限公司 业务故障的定位方法、装置、存储介质及计算机程序产品

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XUDONG LU 等: ""An anomaly detection method to improve the intelligent level of smart articles based on multiple group correlation probability models"", 《INTERNATIONAL JOURNAL OF CROWD SCIENCE》 *
XUDONG LU 等: ""An anomaly detection method to improve the intelligent level of smart articles based on multiple group correlation probability models"", 《INTERNATIONAL JOURNAL OF CROWD SCIENCE》, vol. 3, no. 3, 16 October 2019 (2019-10-16), pages 333 - 347 *
黄丽丹;: "LTE无线网络优化关键性能指标研究", 信息通信, no. 02, pages 248 - 249 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115514627A (zh) * 2022-09-21 2022-12-23 深信服科技股份有限公司 一种故障根因定位方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN114760190B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN111314173B (zh) 监控信息异常的定位方法、装置、计算机设备及存储介质
CN116049146B (zh) 一种数据库故障处理方法、装置、设备及存储介质
US20120136816A1 (en) Network analysis system
CN116225769B (zh) 一种系统故障根因的确定方法、装置、设备及介质
CN115373888A (zh) 故障定位方法、装置、电子设备和存储介质
CN114760190A (zh) 一种面向服务的融合网络性能异常检测方法
CN116820826B (zh) 一种基于调用链的根因定位方法、装置、设备及存储介质
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN116226644A (zh) 设备故障类型的确定方法、装置、电子设备及存储介质
CN115794473A (zh) 一种根因告警的定位方法、装置、设备及介质
CN115829160A (zh) 一种时序异常预测方法、装置、设备及存储介质
CN115774648A (zh) 一种异常定位方法、装置、设备以及存储介质
CN113052509B (zh) 模型评估方法、模型评估装置、电子设备和存储介质
CN115509853A (zh) 一种集群数据异常检测方法及电子设备
CN115001997B (zh) 基于极值理论的智慧城市网络设备性能异常阈值评估方法
CN115578583B (zh) 图像处理方法、装置、电子设备和存储介质
CN117056663B (zh) 一种数据处理方法、装置、电子设备及存储介质
CN116112339B (zh) 一种根因告警的定位方法、装置、设备及介质
CN117573412A (zh) 系统故障预警方法、装置、电子设备及存储介质
CN117667587A (zh) 一种异常检测方法、装置、电子设备及存储介质
CN118069620A (zh) 数据库的故障预防方法、装置、计算机设备及存储介质
CN117891643A (zh) 一种异常指标排序方法、装置、电子设备和存储介质
CN117707899A (zh) 一种微服务异常检测方法、装置、设备及存储介质
CN115861267A (zh) 一种设备故障确定方法、装置、电子设备及存储介质
CN115576830A (zh) 一种用例质量确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant