CN109981328B - 一种故障预警方法及装置 - Google Patents

一种故障预警方法及装置 Download PDF

Info

Publication number
CN109981328B
CN109981328B CN201711463963.5A CN201711463963A CN109981328B CN 109981328 B CN109981328 B CN 109981328B CN 201711463963 A CN201711463963 A CN 201711463963A CN 109981328 B CN109981328 B CN 109981328B
Authority
CN
China
Prior art keywords
fault
log
occurrence probability
faults
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711463963.5A
Other languages
English (en)
Other versions
CN109981328A (zh
Inventor
王晓春
高芳
马军
成方军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Shanxi Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Shanxi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Shanxi Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711463963.5A priority Critical patent/CN109981328B/zh
Publication of CN109981328A publication Critical patent/CN109981328A/zh
Application granted granted Critical
Publication of CN109981328B publication Critical patent/CN109981328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及安全技术领域,尤其涉及一种故障预警方法及装置,用以解决现有技术的预警方法存在着预警能力不全面的问题;本申请实施例提供的故障预警方法包括:在每一检测周期,提取第一时间段内的监控日志作为历史日志,提取第二时间段内的监控日志作为近期日志;对每一类故障,根据历史日志统计所述故障的历史发生概率,根据近期日志确定所述故障的潜在发生概率,根据历史发生概率和潜在发生概率确定当前周期所述故障的发生概率;对发生概率大于对应报警阈值的故障进行预警,这样,在进行故障预警时,不仅可以考虑时间比较久的历史日志发现高频故障,而且可以根据近期日志确定出可能发生的低频故障,因此,预警能力更全面。

Description

一种故障预警方法及装置
技术领域
本申请涉及安全技术领域,尤其涉及一种故障预警方法及装置。
背景技术
目前,通信系统规模庞大,随便发生一类故障就可能影响数亿级的通信用户,据不完全统计,截至2017年1月,山西省内4G基站数已经超过5万,网元数量同比增长5000倍,日均告警增幅50.2%,急需对通信系统进行有效的故障预警。
现有技术中的故障预警方法,根据大规模监控日志发现的是高频发生的故障,对于一些不经常出现的故障,由于在大规模监控日志中这些故障出现的次数比较少,相比于那些高频发生的故障来说显得微不足道,因次,常常被忽略,这样,对远期发生次数比较少,而近期可能发生的故障就没有任何的预警能力,更谈不上提前处理此类故障。
可见,现有技术中的预警方法存在着预警能力不全面的问题。
发明内容
本申请实施例提供一种故障预警方法及装置,用以解决现有技术中的预警方法存在着预警能力不全面的问题。
本申请实施例提供的一种故障预警方法,包括:
在每一检测周期,提取第一时间段内的监控日志作为历史日志,提取第二时间段内的监控日志作为近期日志;
对监测对象的每一类故障,根据所述历史日志统计所述故障的历史发生概率,根据所述近期日志确定所述故障的潜在发生概率,根据所述历史发生概率和所述潜在发生概率确定当前周期所述故障的发生概率;
对发生概率大于对应报警阈值的故障进行预警。
本申请实施例提供的一种故障预警装置,包括:
提取模块,用于在每一检测周期,提取第一时间段内的监控日志作为历史日志,提取第二时间段内的监控日志作为近期日志;
确定模块,用于对监测对象的每一类故障,根据所述历史日志统计所述故障的历史发生概率,根据所述近期日志确定所述故障的潜在发生概率,根据所述历史发生概率和所述潜在发生概率确定当前周期所述故障的发生概率;
预警模块,用于对发生概率大于对应报警阈值的故障进行预警。
本申请实施例提供的一种电子设备,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述电子设备执行上述故障预警方法的步骤。
本申请实施例提供的一种计算机可读存储介质,包括程序代码,当所述程序代码在电子设备上运行时,使所述电子设备执行上述故障预警方法的步骤。
本申请实施例中,在每一检测周期,提取第一时间段内的监控日志作为历史日志,提取第二时间段内的监控日志作为近期日志,进而对监测对象的每一类故障,根据历史日志统计该故障的历史发生概率,根据近期日志确定该故障的潜在发生概率,再根据历史发生概率和潜在发生概率确定当前周期该故障的发生概率,对发生概率大于对应报警阈值的故障进行预警,这样,在进行故障预警时,不仅可以根据时间比较久的历史日志发现高频故障,而且可以根据近期日志确定出最近可能发生的低频故障,因此,预警能力更全面,也更准确。
附图说明
图1为本申请实施例提供的故障预警方法流程图;
图2为本申请实施例提供的计算某类故障的发生概率的流程图;
图3为本申请实施例提供的故障预警装置结构图;
图4为本申请实施例提供的用于实现故障预警方法的电子设备的硬件结构示意图。
具体实施方式
现有技术中,故障预警系统通常只能利用历史监控日志来发现高频故障,而实际生产中不可避免地会出现低频故障,倘若能尽早发现低频故障并解决,那么预警系统的智能化程度得到大大提高,并且,可以保证监测对象的业务连续性,其中,高频故障是指发生频率比较高的故障;低频故障是指发生频率比较低的故障,为此,本申请实施例提供了一种故障预警方法。
本申请实施例中,在每一检测周期,提取第一时间段内的监控日志作为历史日志,提取第二时间段内的监控日志作为近期日志,进而对监测对象的每一类故障,根据历史日志统计该故障的历史发生概率,根据近期日志确定该故障的潜在发生概率,再根据历史发生概率和潜在发生概率确定当前周期该故障的发生概率,对发生概率大于对应报警阈值的故障进行预警,这样,在进行故障预警时,不仅可以根据时间比较久的历史日志发现高频故障,而且可以根据近期日志确定出最近可能发生的低频故障,因此,预警能力更全面,也更准确。
下面结合说明书附图对本申请实施例作进一步详细描述。
实施例一
如图1所示,为本申请实施例提供的故障预警方法流程图,包括以下步骤:
S101:在每一检测周期,提取第一时间段内的监控日志作为历史日志,提取第二时间段内的监控日志作为近期日志。
一般地,在监控日志中,可以开启一个很长的时间窗口和一个比较短的时间窗口,将从长时间窗口中提取的监控日志作为历史日志,将从短时间窗口中提取的监控日志作为近期日志,其中,历史日志和近期日志可以有重叠部分也可以没有重叠的部分,第一时间段中最早的时间点早于第二时间段中最早的时间点即可。
比如,当前时间为2017.12.11日,第一时间段可以为2017.10.1~2017.12.10,第二时间段可以为2017.12.1~2017.12.10;第一时间段可以为2017.10.1~2017.11.31,第二时间段可以为2017.12.1~2017.12.10;第一时间段可以为2017.10.1~2017.12.10,第二时间段可以为2017.12.1~2017.12.8。
S102:对监测对象的每一类故障,根据历史日志统计该故障的历史发生概率,根据近期日志确定该故障的潜在发生概率,根据历史发生概率和潜在发生概率确定当前周期该故障的发生概率。
在具体实施过程中,对监测对象可能发生的每一类故障,可以按照图2所示的流程计算当前周期该故障的发生概率,包括:
S201a:根据历史日志统计该故障的历史发生概率。
可选地,可以根据历史日志统计该故障已发生的次数,进而根据该故障已发生的次数和在历史日志中记录的所有故障发生的总次数,确定该故障的历史发生概率。
具体地,对故障xi,可以计算该故障已发生的次数与预设值的和,并计算在历史日志中记录的所有故障发生的总次数与预设值的和,将两者之比确定为该故障的历史发生概率。
即,对任一故障,可以根据以下公式确定该故障的历史发生概率:
故障的历史发生概率=(故障已发生的次数+预设值)/(在历史日志中记录的故障总次数+预设值)。
比如,可以根据以下任一公式计算故障xi的历史发生概率Phistory(xi):
当预设值为零时,
Figure BDA0001530744440000041
当预设值为1时,
Figure BDA0001530744440000042
其中,n代表需要进行监测的故障类型总数,|xi|表示在历史日志中故障xi已发生的次数,|xj|表示在历史日志中故障xj已发生的次数,。
S202a:根据近期日志确定该故障的潜在发生概率。
可选地,可以从近期日志中提取每次发生该故障时的时间,并计算相邻两次故障发生时的时间间隔,对每一时间间隔,若确定该时间间隔小于上一次故障发生时的时间间隔,则将该故障的计数器加1,初始时计数器为零,进而根据该故障的计数和在近期日志中各类故障的计数,确定该故障的潜在发生概率。
具体地,对故障xi,可以计算该故障的计数与预设值的和,并计算近期日志中各类故障的计数与预设值的和,将两者之比确定为该故障的潜在发生概率。
即,对任一故障,可以根据以下公式确定该故障的潜在发生概率:
故障的潜在发生概率=(故障的计数+预设值)/(Σ近期日志中每一类故障的计数+预设值);
其中,Σ近期日志中每一故障的计数,代表对近期日志中每一类故障的计数求和,这里,近期日志中记录的故障种类有可能会小于需要进行监测的故障类型总数n。
比如,可以根据以下任一公式计算故障xi的潜在发生概率Pcurrent(xi):
当预设值为零时,
Figure BDA0001530744440000051
当预设值为1时,
Figure BDA0001530744440000052
其中,m代表在近期日志中已发生过故障的故障类型个数,0≤m≤n,|Δxi表示在近期日志中故障xi的计数,|Δxj|表示在近期日志中故障xj的计数。
S203a:根据历史发生概率和潜在发生概率确定当前周期该故障的发生概率。
可选地,可以计算历史发生概率与第一权重的乘积,并计算潜在发生概率与第二权重的乘积,将两个乘积的和确定为当前周期该故障的发生概率,其中,第一权重和第二权重均为预设的,且第一权重和第二权重之和为1。
比如,对故障xi,可以根据以下公式计算当前周期故障xi的发生概率P(xi):
P(xi)=λPhistory(xi)+(1-λ)Pcurrent(xi);
其中,λ为历史发生概率Phistory(xi)的权重;1-λ为潜在发生概率Pcurrent(xi)的权重。
S103:对发生概率大于对应报警阈值的故障进行预警。
在具体实施过程中,每一类型的故障都对应有自己的报警阈值,当确定出多个需要进行预警的故障时,对每一类需要进行预警的故障,还可以根据用户投诉日志确定用户对该类故障的关注度,进而根据用户的关注度对该故障进行预警,比如,将用户关注度比较高的故障排在比较明显的位置,或者标注不同的颜色。
具体地,对每一类需要进行预警的故障,可以根据用户投诉日志统计该故障的被投诉次数,进而根据该故障的被投诉次数和各类故障被投诉的总次数,确定用户对该故障的关注度。
此外,对每一类型的故障,该故障对应的报警阈值还可以随着时间的变化而有所不同。
在具体实施过程中,对每一类故障,可以根据上一周期该故障对应的报警阈值和当前周期该故障的潜在发生概率,确定当前周期该故障对应的报警阈值,其中,初始时该故障对应的报警阈值为预设值。
具体地,可以计算上一周期该故障对应的报警阈值与第三权重的乘积,并计算该故障的潜在发生概率与第四权重的乘积,将两个乘积的和确定为当前周期该故障对应的报警阈值,其中,第三权重和第四权重均为预设的,且第三权重和第四权重之和为1。
比如,对故障xi,可以根据以下公式计算当前周期故障xi对应的报警阈值
Figure BDA0001530744440000061
Figure BDA0001530744440000062
其中,α为上一周期故障xi对应的报警阈值
Figure BDA0001530744440000071
的权重;1-α为当前周期故障xi的潜在发生概率
Figure BDA0001530744440000072
的权重。
本申请实施例中,在每一检测周期,提取第一时间段内的监控日志作为历史日志,提取第二时间段内的监控日志作为近期日志,进而对监测对象的每一类故障,根据历史日志统计该故障的历史发生概率,根据近期日志确定该故障的潜在发生概率,再根据历史发生概率和潜在发生概率确定当前周期该故障的发生概率,对发生概率大于对应报警阈值的故障进行预警,这样,在进行故障预警时,不仅可以根据时间比较久的历史日志发现高频故障,而且可以根据近期日志确定出最近可能发生的低频故障,因此,预警能力更全面,也更准确。
实施例二
为克服现有的故障预警系统的诸多缺陷,本申请实施例提出了一种考虑用户感知的故障预警方法,从长期监控日志中挖掘历史故障率,并从近期监控日志中提取故障演变情况,根据用户投诉量估计用户对故障的关注度,及时发现隐患故障、并提前发出警报,可以使相关人员第一时间采取措施,有效降低监测对象的故障率,并且,本申请实施例提供的方法不仅仅局限于通信领域,而是具有通用性和推广型,适用系统和场景非常广泛。
实际应用中,故障预警系统是周期性进行预警的,下面以对某一周期内的预警流程进行介绍:
1、日志采集。
1.1采集长期日志和近期日志。
首先,使用赋予了下载权限的账号下载监控对象的监控日志,进而读取当前时刻t,假设当前日志为Lt,那么从时刻1,2…t-1的日志Lt-1即为历史日志,进一步地,从历史日志当中抽取出时刻t-n-1到时刻t-1的日志作为近期日志。
1.2采集用户投诉日志。
类似地,使用赋予了下载权限的账号下载用户投诉日志,假设当前时刻t,那么从时刻1,2…t-1的日志Mt-1即为用户投诉日志。
可选地,下载历史日志、近期日志和用户投诉日志后,可以对这些日志中的关键信息进行模糊化处理,防止用户身份证号、电话号等隐私信息泄露。
2、确定每一类故障的发生概率。
对于进行监控的n类故障X=(x1,x2,…xn),故障xi(1≤i≤n)的发生概率P(xi)由历史发生概率Phistory(xi)和近期潜在发生概率Pcurrent(xi)共同决定,其中,Phistory(xi)反映了故障xi的历史变化情况,Pcurrent(xi)反映了故障xi最近一段时期的变化趋势,如果近一段时期故障xi呈现了越来越严重的变化趋势,那么也应该得到重视。
并且,实际生产系统中,近期潜在故障对于系统的稳定性造成的影响更大,其预估的必要性和重要更强,为了更加有效地捕捉新近可能发生的低频故障,引入反映历史故障率和近期潜在故障率的重要性的权重λ(0<λ<1),引入权重λ以后,当前周期故障xi的发生概率P(xi)为:
P(xi)=λPhistory(xi)+(1-λ)Pcurrent(xi);
其中,权重λ反映了历史故障率的重要性,1-λ反映了近期潜在故障率的重要性,λ可由经验确定。
特别地,当λ=0或者λ=1时,意味着P(xi)仅由近期潜在故障率或者历史故障率单方面决定,考虑到近期潜在故障率和历史故障率是发现故障隐患的不可替代的两部分,更一般的情况下,权重λ的取值范围为0<λ<1。
比如,在某个系统中λ=0.4,对于CPU利用率来说,通过长期日志计算CPU利用率的历史故障率为0.2,通过短期日志计算出来的潜在故障率为0.4,那么当前检测周期CPU利用率发生故障的概率为:0.4*0.2+0.6*0.4=0.32,这里,CPU利用率在短期日志中表现出故障趋势,但是在历史日志中并未表现出明显的故障倾向,如果只考虑历史故障发生概率,那么很可能就会忽视CPU利用率的故障,从而影响系统健康运行。
2.1确定历史发生概率Phistory(xi)。
可选地,可以采用极大似然估计的方法,通过统计历史日志中的故障发生频率得到。
比如,可以根据以下公式计算故障xi的历史发生概率Phistory(xi):
Figure BDA0001530744440000091
其中,n代表需要进行监测的故障类型总数,|xi|表示在历史日志中故障xi已发生的次数,|xj|表示在历史日志中故障xj已发生的次数。
这里,分子表示在历史日志中统计的故障xi已发生的次数,分母表示在历史日志中总共发生了多少次的故障,二者相除表示故障xi的历史发生概率,历史故障率的计算在监控日志中开启一个很长的时间窗口,通过观察分析在以往历史中发生过的故障推算未来发生故障的可能性。
可选地,为了更好地处理近期出现的低频故障,可以在计算故障的历史发生概率时引入平滑技术,具体地,引入平滑技术后,故障xi的历史发生概率Phistory(xi):
Figure BDA0001530744440000092
利用上述公式,即使某一故障xi在历史日志中没有发生过,其历史发生概率也不会是零,即历史发生概率始终大于零,其中,历史发生概率的值越大说明故障xi发生的可能性越大,紧急处理的需求越强烈,反之,则紧急处理的需求不强烈。
2.2确定近期潜在发生概率Pcurrent(xi)。
可选地,故障xi的近期潜在发生概率反映了故障xi近期的潜在发生概率,在实际生产系统中,如果相邻两次故障发生时间间隔越来越近,则说明故障重复发生的可能性越来越高,故障有变严重的趋势,因此,可以以故障发生的时间间隔作为故障变化趋势的度量。
比如,可以根据以下公式计算故障xi的潜在发生概率Pcurrent(xi):
Figure BDA0001530744440000101
其中,m代表在近期日志中已发生过故障的故障类型个数,|Δxi|表示在近期日志中故障xi的计数,|Δxj|表示在近期日志中故障xj的计数。
假设根据近期日志确定共发生过m类故障,以故障xi为例,在近期日志中故障xi的发生次数为k,提取其故障发生的日期即di1,di2,…,dik,计算相邻两个故障发生的时间间隔δ1,δ2,…,δk-1。对每一次故障时的时间间隔,如果前一次故障xi发生的时间间隔较本次长,则故障xi的计数器加1,表示故障xi存在越来越严重的趋势。
类似地,近期潜在故障概率也可以采用平滑技术,引入了平滑技术后,故障xi的潜在发生概率Pcurrent(xi):
Figure BDA0001530744440000102
3、报警阈值。
在实际生产中发现,不同类型的故障,其发生概率分布并不均匀,有些故障属于低频故障,有些故障属于高频故障,还有些故障表现出一定的随机性。假如对所有的故障采用统一的报警阈值,那么难以满足不同类型的故障需要,更合理的方式是针对不同类型的故障设置不同的报警阈值,因此,在本申请实施例中,每类故障都对应一个报警阈值。
并且,为了使各类故障对应的报警阈值随着时间窗口的变化而变化,本申请实施例中的报警阈值采用了迭代的计算方法,t时刻的报警阈值由t-1时刻的报警阈值和t时刻故障的潜在发生概率决定。
比如,可以根据以下公式计算故障xi对应的报警阈值
Figure BDA0001530744440000103
Figure BDA0001530744440000104
其中,α表示前一时刻报警阈值的重要性(0<α<1),该值越大表示上一时刻报警阈值对于当前报警阈值的影响越大;该值越小表示当前近期故障率的重要性越大,这样,当前时刻的报警阈值由上一时刻的报警阈值和当前的近期潜在故障发生率决定,可以使报警阈值的变化较为缓和,这对系统的稳定性来说是非常重要的。
假设故障xi在t-1时刻对应的报警阈值为0.1,潜在发生概率为0.3,并且,a=0.4,那么t时刻故障xi对应的报警阈值为:0.4*0.1+(1-0.4)*0.3=0.22,这里,t-1时刻故障xi对应的报警阈值为0.1,而当前t时刻故障xi对应的报警阈值变为0.22,报警阈值随着数据的变化而变化,因而更具有灵活性。
在本申请实施例中,不但每类故障对应一个报警阈值,并且报警阈值是随着时间的变化而变化的,即报警阈值是动态变化的,其好处是随着监控内容的变化而动态体现出不同的时间点上的报警规律,避免了手动设定不合理导致的误报漏报问题。
4、考虑用户感知。
可选地,可以根据用户投诉日志来考量用户对各类故障的关注度,在实际应用中也可以从其他角度来考量,比如故障引起的业务量、经济损失、故障处理难度、技术人员水平、重要客户数等。
比如,可以根据以下公式计算用户对故障xi的关注度U(xi):
Figure BDA0001530744440000111
其中,T(xi)为用户对故障xi的投诉次数,T(xj)为用户对故障xj的投诉次数,n为故障类型总数。
假设根据历史日志和近期日志确定CPU利用率和网络连接失败均超过了报警阈值,即系统对CPU利用率和网络连接失败均会进行预警,那么这两项告警的重要性如何,此时,就需要用户感知了。
具体地,假设xi和xj分别代表了CPU利用率和网络连接失败,CPU利用率和网络连接失败有关的投诉量分别为78747和88321,总的投诉量为1245711,则:
用户对CPU利用率的关注度为:78747/1245711=0.063;
用户对网络连接失败的关注度为:5648321/1245711=0.071。
可见,用户对网络连接失败的关注度大于对CPU利用率的关注度,因此预警网络连接失败的优先级可以高于CPU利用率,这就告诉运维人员要优先关注网络连接失败的潜在故障。
针对现有监控系统只能实时发现故障的问题,本申请实施例提出了一种带有故障预警机制的智能化监控方法,既考虑在以往监控历史中各故障的发生概率,也考虑近期各故障的潜在发生概率,通过以上两个方向来捕获和预估越来越严重的故障,不仅可以发现故障趋势变得严重的旧故障也可以发现新出现的故障,从而实现智能化监控的目的,并且可以根据用户对各故障的关注度对故障的优先级进行排序,在实际应用中能够获得良好的监控效果和经济收益。
实施例三
假设需要对某系统在2017年3月31日的故障隐患进行预测,并根据2017年3月31日的监控日志评估预测结果的准确性,则可以按照以下步骤进行:
(1)假设需要进行监测的故障如表1所示。
表1需要进行检测的5类故障
1 MAP或者REDUCE作业失败数
2 最小Reduce任务执行时间
3 最大Reduce任务执行时间
4 最大Map任务执行时间
5 最小Map任务执行时间
(2)提取各类故障的监控记录,集群监控日志中共有记录556561744行,用户投诉日志中共有记录36861335行。
以2017年3月31日为当前时间,经过相关管理员的授权和批准,采集2017年1月1日到2017年3月30日的集群监控日志为历史日志,采集2017年3月20日至2017年3月30日的集群监控日志为近期日志,采集2017年1月1日到2017年3月30日的用户投诉日志,对这部分日志数据中的敏感数据进行模糊化处理。
(3)计算各类故障的发生概率。
假设历史发生概率的权重为0.4,潜在发生概率的权重为0.6,则任一类故障xi的发生概率P(xi)为:
P(xi)=0.4×Phistory(xi)+0.6×Pcurrent(xi)。
(4)比较各类故障的发生概率与报警阈值,超过报警阈值的则为存在故障隐患。
假设各类故障的发生概率如表2所示,其中,超过报警阈值的故障有3类:MAP或者REDUCE作业失败数、最小Reduce任务执行时间、最大Reduce任务执行时间,并且,用户对这三类故障的关注度分别为0.14、0.20、0.17,据此,这三类故障的预警优先级分别为三级、一级、二级。
表2故障发生概率
Figure BDA0001530744440000131
(5)将预测结果与2017年3月31日集群系统监控日志进行对比,使用本申请实施例提出的故障预测结果正确,三类故障隐患均在31日当日发生,可见本案提出的方法的准确性。
实施例四
基于同一发明构思,本申请实施例中还提供了一种与故障预警方法对应的故障预警装置,由于该装置解决问题的原理与本申请实施例故障预警方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图3所示,为本申请实施例提供的故障预警装置结构图,包括:
提取模块301,用于在每一检测周期,提取第一时间段内的监控日志作为历史日志,提取第二时间段内的监控日志作为近期日志;
确定模块302,用于对监测对象的每一类故障,根据所述历史日志统计所述故障的历史发生概率,根据所述近期日志确定所述故障的潜在发生概率,根据所述历史发生概率和所述潜在发生概率确定当前周期所述故障的发生概率;
预警模块303,用于对发生概率大于对应报警阈值的故障进行预警。
可选地,确定模块302具体用于:
从所述近期日志中提取所述故障发生时的时间,并计算相邻两次故障发生时的时间间隔;
对每一时间间隔,若确定所述时间间隔小于上一次故障发生时的时间间隔,则将所述故障的计数器加1,初始时计数器为零;
根据所述故障的计数和所述近期日志中各类故障的计数,确定所述故障的潜在发生概率。
可选地,根据以下公式确定所述故障的潜在发生概率:
所述故障的潜在发生概率=(所述故障的计数+预设值)/(Σ所述近期日志中每一类故障的计数+预设值)。
可选地,确定模块302具体用于:
根据所述历史日志统计所述故障已发生的次数;
根据所述故障已发生的次数和在所述历史日志中记录的故障总次数,确定所述故障的历史发生概率。
可选地,根据以下公式确定所述故障的历史发生概率:
所述故障的历史发生概率=(所述故障已发生的次数+预设值)/(在所述历史日志中记录的故障总次数+预设值)。
可选地,根据以下公式确定当前周期所述故障的发生概率:
当前周期所述故障的发生概率=所述历史发生概率×第一权重+所述潜在发生概率×第二权重;
其中,所述第一权重和所述第二权重均为预设的,且所述第一权重和所述第二权重之和为1。
可选地,预警模块303具体用于:
获取用户投诉日志;
对每一类需要进行预警的故障,根据所述用户投诉日志确定用户对所述故障的关注度,根据用户对所述故障的关注度对所述故障进行预警。
可选地,预警模块303具体用于:
根据所述用户投诉日志统计所述故障的被投诉次数;
根据所述故障的被投诉次数和所有故障被投诉的总次数,确定用户对所述故障的关注度。
可选地,预警模块303还用于:
对每一类型的故障,根据以下步骤确定所述故障对应的报警阈值:
确定上一周期所述故障对应的报警阈值,初始时报警阈值为预设值;
根据上一周期所述故障对应的报警阈值和当前周期所述故障的潜在发生概率,确定当前周期所述故障对应的报警阈值。
可选地,根据以下公式确定当前周期所述故障对应的报警阈值:
当前周期所述故障对应的报警阈值=上一周期所述故障对应的报警阈值×第三权重+当前周期所述故障的潜在发生概率×第四乘积;
其中,所述第三权重和所述第四权重均为预设的,且所述第三权重和所述第四权重之和为1。
实施例五
如图4所示,为本申请实施例提供的用于实现故障预警方法的电子设备的硬件结构示意图,包括至少一个处理单元401、以及至少一个存储单元402,其中,存储单元存储有程序代码,当程序代码被所述处理单元执行时,使得电子设备执行上述故障预警方法的步骤。
实施例六
本申请实施例提供的一种计算机可读存储介质,包括程序代码,当所述程序代码在电子设备上运行时,使电子设备执行上述故障预警方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种故障预警方法,其特征在于,包括:
在每一检测周期,提取第一时间段内的监控日志作为历史日志,提取第二时间段内的监控日志作为近期日志;
对监测对象的每一类故障,根据所述历史日志统计所述故障的历史发生概率,根据所述近期日志确定所述故障的潜在发生概率,根据所述历史发生概率和所述潜在发生概率确定当前周期所述故障的发生概率;
对发生概率大于对应报警阈值的故障进行预警;
对每一类型的故障,根据以下步骤确定当前周期所述故障对应的报警阈值:
确定上一周期所述故障对应的报警阈值,初始时报警阈值为预设值;
根据上一周期所述故障对应的报警阈值和当前周期所述故障的潜在发生概率,确定当前周期所述故障对应的报警阈值。
2.如权利要求1所述的方法,其特征在于,根据所述近期日志确定所述故障的潜在发生概率,包括:
从所述近期日志中提取每次发生所述故障时的时间,并计算相邻两次故障发生时的时间间隔;
对每一时间间隔,若确定所述时间间隔小于上一次发生所述故障时的时间间隔,则将所述故障的计数器加1,初始时计数器为零;
根据所述故障的计数和所述近期日志中各类故障的计数,确定所述故障的潜在发生概率。
3.如权利要求2所述的方法,其特征在于,根据以下公式确定所述故障的潜在发生概率:
所述故障的潜在发生概率=(所述故障的计数+预设值)/(Σ所述近期日志中每一类故障的计数+预设值)。
4.如权利要求1所述的方法,其特征在于,根据所述历史日志统计所述故障的历史发生概率,包括:
根据所述历史日志统计所述故障已发生的次数;
根据所述故障已发生的次数和在所述历史日志中记录的故障总次数,确定所述故障的历史发生概率。
5.如权利要求4所述的方法,其特征在于,根据以下公式确定所述故障的历史发生概率:
所述故障的历史发生概率=(所述故障已发生的次数+预设值)/(在所述历史日志中记录的故障总次数+预设值)。
6.如权利要求1~5任一所述的方法,其特征在于,根据以下公式确定当前周期所述故障的发生概率:
当前周期所述故障的发生概率=所述历史发生概率×第一权重+所述潜在发生概率×第二权重;
其中,所述第一权重和所述第二权重均为预设的,且所述第一权重和所述第二权重之和为1。
7.如权利要求1~5任一所述的方法,其特征在于,对发生概率大于对应报警阈值的故障进行预警,包括:
获取用户投诉日志;
对每一类需要进行预警的故障,根据所述用户投诉日志确定用户对所述故障的关注度,根据用户对所述故障的关注度对所述故障进行预警。
8.如权利要求7所述的方法,其特征在于,根据所述用户投诉日志确定用户对所述故障的关注度,包括:
根据所述用户投诉日志统计所述故障的被投诉次数;
根据所述故障的被投诉次数和各类故障被投诉的总次数,确定用户对所述故障的关注度。
9.如权利要求1所述的方法,其特征在于,根据以下公式确定当前周期所述故障对应的报警阈值:
当前周期所述故障对应的报警阈值=上一周期所述故障对应的报警阈值×第三权重+当前周期所述故障的潜在发生概率×第四权重;
其中,所述第三权重和所述第四权重均为预设的,且所述第三权重和所述第四权重之和为1。
10.一种故障预警装置,其特征在于,包括:
提取模块,用于在每一检测周期,提取第一时间段内的监控日志作为历史日志,提取第二时间段内的监控日志作为近期日志;
确定模块,用于对监测对象的每一类故障,根据所述历史日志统计所述故障的历史发生概率,根据所述近期日志确定所述故障的潜在发生概率,根据所述历史发生概率和所述潜在发生概率确定当前周期所述故障的发生概率;
预警模块,用于对发生概率大于对应报警阈值的故障进行预警;
所述预警模块,还用于对每一类型的故障,根据以下步骤确定所述故障对应的报警阈值:确定上一周期所述故障对应的报警阈值,初始时报警阈值为预设值;根据上一周期所述故障对应的报警阈值和当前周期所述故障的潜在发生概率,确定当前周期所述故障对应的报警阈值。
11.一种电子设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述电子设备执行权利要求1~9任一所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,包括程序代码,当所述程序代码在电子设备上运行时,使所述电子设备执行权利要求1~9任一所述方法的步骤。
CN201711463963.5A 2017-12-28 2017-12-28 一种故障预警方法及装置 Active CN109981328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711463963.5A CN109981328B (zh) 2017-12-28 2017-12-28 一种故障预警方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711463963.5A CN109981328B (zh) 2017-12-28 2017-12-28 一种故障预警方法及装置

Publications (2)

Publication Number Publication Date
CN109981328A CN109981328A (zh) 2019-07-05
CN109981328B true CN109981328B (zh) 2022-02-25

Family

ID=67075097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711463963.5A Active CN109981328B (zh) 2017-12-28 2017-12-28 一种故障预警方法及装置

Country Status (1)

Country Link
CN (1) CN109981328B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11093315B2 (en) * 2019-03-22 2021-08-17 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for detecting a fault or a model mismatch
CN110489260B (zh) * 2019-07-31 2023-03-24 新华三技术有限公司成都分公司 故障识别方法、装置及bmc
CN110839149B (zh) * 2019-09-29 2022-04-19 深圳市火乐科技发展有限公司 智能投影仪的参数容错输出方法及相关产品
CN111080142B (zh) * 2019-12-19 2022-05-17 云南电网有限责任公司信息中心 一种基于电力报障的主动服务辅助判定方法
CN111338908A (zh) * 2020-03-10 2020-06-26 山东超越数控电子股份有限公司 一种基于bmc自动调整部件监控周期的方法
CN111404595B (zh) * 2020-03-20 2021-04-06 西安电子科技大学 一种天基网络通信卫星健康度评估方法
CN111638458B (zh) * 2020-06-23 2022-08-16 广州小鹏汽车科技有限公司 一种电芯故障的分析方法和装置
CN114297255B (zh) * 2021-12-17 2024-04-19 中电信数智科技有限公司 一种基于日志分析的网络品质工单故障预警方法
CN114244681B (zh) * 2021-12-21 2023-08-01 深圳Tcl新技术有限公司 设备连接故障预警方法、装置、存储介质及电子设备
CN114330769A (zh) * 2021-12-24 2022-04-12 深圳优地科技有限公司 一种机器人故障预警方法、装置、机器人以及服务器
CN114697203B (zh) * 2022-03-31 2023-07-25 浙江省通信产业服务有限公司 一种网络故障的预判方法、装置、电子设备及存储介质
CN115775087B (zh) * 2023-02-13 2023-05-12 东莞先知大数据有限公司 一种充电桩风险预警方法、装置及存储介质
CN116259167B (zh) * 2023-03-14 2023-11-21 东莞先知大数据有限公司 一种充电桩区域高温风险预警方法、装置、设备和介质
CN116339267B (zh) * 2023-05-25 2023-08-08 深圳市星火数控技术有限公司 基于物联网的自动化生产线控制系统
CN117193252A (zh) * 2023-09-28 2023-12-08 广东百德朗科技有限公司 基于数据平台的智慧楼宇远程运维方法、装置及电子设备
CN117974069B (zh) * 2024-03-28 2024-06-07 山东国泰民安玻璃科技有限公司 一种注射剂瓶生产数据采集方案制定方法、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007020115A (ja) * 2005-07-11 2007-01-25 Nec Corp 通信網の障害検出システム、通信網の障害検出方法及び障害検出プログラム
CN101754241A (zh) * 2008-12-18 2010-06-23 中兴通讯股份有限公司 一种用于无线通信的预警系统及方法
CN102369567A (zh) * 2009-03-30 2012-03-07 微软公司 用于统计语言模型的自适应
CN105468917A (zh) * 2015-12-01 2016-04-06 北京无线电计量测试研究所 一种管线故障预测方法及装置
CN105676077A (zh) * 2014-11-18 2016-06-15 北京兴迪仪器有限责任公司 高压电缆局部放电在线监测的报警方法、装置及系统
CN106908812A (zh) * 2017-02-24 2017-06-30 中国航天标准化研究所 一种导航监测站的可用性确定方法
CN107342878A (zh) * 2016-04-29 2017-11-10 中兴通讯股份有限公司 一种故障处理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007020115A (ja) * 2005-07-11 2007-01-25 Nec Corp 通信網の障害検出システム、通信網の障害検出方法及び障害検出プログラム
CN101754241A (zh) * 2008-12-18 2010-06-23 中兴通讯股份有限公司 一种用于无线通信的预警系统及方法
CN102369567A (zh) * 2009-03-30 2012-03-07 微软公司 用于统计语言模型的自适应
CN105676077A (zh) * 2014-11-18 2016-06-15 北京兴迪仪器有限责任公司 高压电缆局部放电在线监测的报警方法、装置及系统
CN105468917A (zh) * 2015-12-01 2016-04-06 北京无线电计量测试研究所 一种管线故障预测方法及装置
CN107342878A (zh) * 2016-04-29 2017-11-10 中兴通讯股份有限公司 一种故障处理方法及装置
CN106908812A (zh) * 2017-02-24 2017-06-30 中国航天标准化研究所 一种导航监测站的可用性确定方法

Also Published As

Publication number Publication date
CN109981328A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109981328B (zh) 一种故障预警方法及装置
CN107871190B (zh) 一种业务指标监控方法及装置
CN107528722B (zh) 一种时间序列中异常点检测方法及装置
CN111143102B (zh) 异常数据检测方法、装置、存储介质及电子设备
US10354197B2 (en) Pattern analytics for real-time detection of known significant pattern signatures
JP4541364B2 (ja) 意味のある変動を明らかにする自動監視及び動的プロセスメトリクスの統計分析
KR101748122B1 (ko) 경보의 오류율 계산 방법
CN110471821B (zh) 异常变更检测方法、服务器及计算机可读存储介质
CN106104496A (zh) 用于任意时序的不受监督的异常检测
CN110149223B (zh) 故障定位方法和设备
CN110750429A (zh) 运维管理系统的异常检测方法、装置、设备及存储介质
US20170139759A1 (en) Pattern analytics for real-time detection of known significant pattern signatures
CN110008247B (zh) 异常来源确定方法、装置、设备及计算机可读存储介质
CN105721187A (zh) 一种业务故障诊断方法及装置
JP2015028700A (ja) 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体
US9600391B2 (en) Operations management apparatus, operations management method and program
CN110727533A (zh) 一种告警的方法、装置、设备和介质
CN114201201A (zh) 一种对业务系统异常检测方法、装置及设备
CN110061867B (zh) 基于故障源告警强度的通信网告警分析方法及系统
KR101960755B1 (ko) 미취득 전력 데이터 생성 방법 및 장치
CN113590427B (zh) 一种监控指标异常的告警方法、装置、存储介质和设备
CN107995014B (zh) 基于告警信息发现功能拓扑的方法及装置
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
CN115987594A (zh) 一种网络安全日志的异常检测方法、装置及设备
CN115801307A (zh) 一种利用服务器日志进行端口扫描检测的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant