CN113541979A - 基于时序数据的故障动态预测方法、装置及计算设备 - Google Patents

基于时序数据的故障动态预测方法、装置及计算设备 Download PDF

Info

Publication number
CN113541979A
CN113541979A CN202010291668.1A CN202010291668A CN113541979A CN 113541979 A CN113541979 A CN 113541979A CN 202010291668 A CN202010291668 A CN 202010291668A CN 113541979 A CN113541979 A CN 113541979A
Authority
CN
China
Prior art keywords
data
time sequence
time
real
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010291668.1A
Other languages
English (en)
Other versions
CN113541979B (zh
Inventor
吴天东
郭岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010291668.1A priority Critical patent/CN113541979B/zh
Publication of CN113541979A publication Critical patent/CN113541979A/zh
Application granted granted Critical
Publication of CN113541979B publication Critical patent/CN113541979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例涉及数据通信网络技术领域,公开了一种基于时序数据的故障动态预测方法、装置及计算设备,该方法包括:获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;根据所述实时时序数据以及所述业务数据生成所述时序指标的动态阈值和临界值;基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障。通过上述方式,本发明实施例能够自动生成动态阈值,极大降低日常维护时间的开销,能够抓住故障即将发生的时间点,可以提前介入分析、处理,避免故障产生,适应范围广。

Description

基于时序数据的故障动态预测方法、装置及计算设备
技术领域
本发明实施例涉及数据通信网络技术领域,具体涉及一种基于时序数据的故障动态预测方法、装置及计算设备。
背景技术
随着云计算规模不断膨胀,网络结构日趋复杂,随之产生的数据量也越来越大,而时序数据是其中覆盖范围最大的一部分,如CPU利用率、内存利用率、带宽利用率、每秒进行读写(I/O)操作的次数(Input/Output Operations Per Second,IOPS)时延、网络响应时延、返回码统计等等,覆盖范围包括网络、操作系统、存储、中间件、容器、数据库、应用等所有云计算技术栈。而对于时序指标的监控、故障告警通常有以下几种方式:1)基于指标人工设定固定阈值,当某个时间点的阈值超出设定值时,启动触发响应机制;2)基于时间序列人工设定阈值,当某个时间区间内持续n次达到阈值,启动触发响应机制。
现有技术的故障检测需要人工对阈值进行定义,且必须是一个指定值,额外增加人工开销的同时,还要依赖人工经验对某个指标的异常值做预先判断,除此之外较难找到一个通用可行的方法。由于阈值都是基于异常值来设定,当触发时代表故障已经发生,属于事后行为;而通常故障发生前,时序指标均会有小区间的快速爬升过程。而基于静态的阈值相对较粗暴,类似”一刀切”的做法,不具备划一性,应用范围有限。以消息队列举例,如对时延要求非常敏感的A应用消息队列积压异常值与时延要求相对无感知的B应用消息队列积压异常值,常规情况下是一样的,但对业务连续性的破坏是完全不一样的。
发明内容
鉴于上述问题,本发明实施例提供了一种基于时序数据的故障动态预测方法、装置及计算设备,克服了上述问题或者至少部分地解决了上述问题。
根据本发明实施例的一个方面,提供了一种基于时序数据的故障动态预测方法,所述方法包括:获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;根据所述实时时序数据以及所述业务数据生成所述时序指标的动态阈值和临界值;基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障。
在一种可选的方式中,所述根据所述实时时序数据以及所述业务数据生成所述时序指标的动态阈值和临界值,包括:获取所述预设时间段内预设区间的历史时序数据;根据所述预设区间的所述历史时序数据生成所述时序指标的所述动态阈值;基于所述预设时间段内的所述历史时序数据根据经验设置所述时序指标的临界值。
在一种可选的方式中,所述获取所述预设时间段内预设区间的所述历史时序数据,包括:回溯预设天数d的所述历史时序数据;确定相邻两个历史时序数据的采集周期T;确定所述历史时序数据每天的开始时间St与结束时间Et,得到所述时序指标的所述历史时序数据总量n=(d×(Et-St))÷T。
在一种可选的方式中,所述根据所述预设区间的所述历史时序数据生成所述时序指标的所述动态阈值,包括:根据所述预设区间的所述历史时序数据计算所述时序指标的均值m与标准差δ;根据所述时序指标的所述均值m、所述标准差δ以及预设的突变系数ψcv应用以下关系式计算动态阀值Nv=(δ+m)*ψcv,其中,i为正整数,i=1,2,…n。
在一种可选的方式中,所述基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障,包括:根据所述业务数据获取对应的业务特征数据;判断所述时序指标的所述实时时序数据是否大于所述动态阈值或所述临界值,如果是,则确定为异常状态;进一步根据所述业务特征数据以及所述异常状态预测是否发生故障。
在一种可选的方式中,所述业务特征数据包括持续时间、业务状态以及数据去重,所述根据所述业务特征数据以及所述异常状态预测是否发生故障包括:所述时序指标的峰值的持续时间小于所述持续时间,则确定所述峰值为瞬时峰值,过滤对应的异常状态;根据所述业务状态对所述异常状态进行过滤;去除重复的所述异常状态。
在一种可选的方式中,所述基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障之后,包括:确定发生故障时,获取关联业务的结构配置数据;将所述异常状态与所述结构配置数据关联生成告警消息;向预设平台发送所述告警消息。
根据本发明实施例的另一个方面,提供了一种基于时序数据的故障动态预测装置,所述装置包括:数据获取单元,用于获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;阈值生成单元,用于根据所述实时时序数据以及所述业务数据生成所述时序指标的动态阈值和临界值;故障预测单元,用于基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障。
根据本发明实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述基于时序数据的故障动态预测方法的步骤。
根据本发明实施例的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行上述基于时序数据的故障动态预测方法的步骤。
本发明实施例通过获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;根据所述时序数据以及所述实时业务数据生成所述时序指标的动态阈值和临界值;基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障,能够自动生成动态阈值,极大降低日常维护时间的开销,能够抓住故障即将发生的时间点,可以提前介入分析、处理,避免故障产生,适应范围广。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的基于时序数据的故障动态预测方法的流程示意图;
图2示出了本发明实施例提供的基于时序数据的故障动态预测方法的动态阈值生成方法示意图;
图3示出了本发明实施例提供的基于时序数据的故障动态预测方法的瞬时峰值示意图;
图4示出了本发明实施例提供的基于时序数据的故障动态预测装置的结构示意图;
图5示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的基于时序数据的故障动态预测方法的流程示意图。该基于时序数据的故障动态预测方法主要应用于服务器。如图1所示,该基于时序数据的故障动态预测方法包括:
步骤S11:获取负载均衡实例中时序指标的实时时序数据和关联的业务数据。
在本发明实施例中,从CPU或服务器内存中获取负载均衡实例中时序指标的实时时序数据和关联的业务数据。其中,关联的业务数据可以包括并发连接数、业务状态等相关的业务数据。时序数据是指能够反映业务或服务进程或状态的一个或多个时序指标的时序数据。本发明实施例可以是任意时序数据场景,特别是针对一些难以定义固定阈值的时序指标,如超文本传输协议(Hyper Text Transport Protocol,HTTP)响应时延、传输控制协议(Transmission Control Protocol,TCP)连接数、Internet控制报文协议(InternetControl Message Protocol,ICMP)响应时延、存活率等,应用范围广,能够普遍适应各种应用场景。本发明实施例基于Python开发,选择网络运维场景中的负载均衡实例时延指标为应用场景,该时序指标包含基础设施即服务(Infrastructure as a Service,IAAS)、平台即服务(Platform as a Service,PAAS)、应用的综合状态,以能够实时体现业务系统积压、宕机(HANG死)、超时、卡顿等故障现象。
步骤S12:根据所述实时时序数据以及所述业务数据生成所述时序指标的动态阈值和临界值。
具体地,如图2所示,包括:
步骤S121:获取所述预设时间段内预设区间的所述历史时序数据。
在本发明实施例中,首先回溯预设天数d的所述历史时序数据。具体是从当前时刻往前回溯历史时序数据,回溯天数d越多,数据量越大,耗时越长,精确度越高。然后确定相邻两个历史时序数据的采集周期T。采集周期T具体指的是相邻两条历史时序数据的时间间隔,单位是秒s。最后确定所述历史时序数据每天的开始时间St与结束时间Et,例如,常规情况下,深夜与凌晨是业务谷值,计算价值较低。如此有效数据区间的数据量表示为(Et-St)÷T,得到所述时序指标的所述历史时序数据总量n=(d×(Et-St))÷T。
步骤S122:根据所述预设区间的所述历史时序数据生成所述时序指标的所述动态阈值。
在本发明实施例中,根据所述预设区间的所述历史时序数据计算所述时序指标的均值m与标准差δ。
Figure BDA0002450628220000061
Figure BDA0002450628220000062
其中,x1,x2,x3,…,xn,xi,xj为时序数据。
进一步根据所述时序指标的所述均值m、所述标准差δ以及预设的突变系数ψcv应用以下关系式计算动态阀值Nv=(δ+m)*ψcv,其中,i为正整数,i=1,2,…n。突变系数ψcv指动态阈值的数值突变系数,可以通过历史正常时序数据区间的峰值与均值计算得出,本发明实施例的数值突变系数采用经验值4。最后得到动态阀值Nv的计算公式:
Figure BDA0002450628220000063
Figure BDA0002450628220000064
可见,本发明实施例能够自动生成动态阈值,无需人工参与,自动完成每个时序指标的阈值计算及周期性迭代,极大降低日常维护时间的开销。
步骤S123:基于所述预设时间段内的所述历史时序数据根据经验设置所述时序指标的临界值。
在本发明实施例中,为了规避时序指标日常波动较大,且综合复核压力过高,导致动态超过该时序指标的临界值而设置。临界值的设置根据各类时序指标的统计方式而有所区别,如CPU最大为100%,对于本发明实施例中的负载均衡实例时延,当时延未达到动态阈值,但到达预定临界值,也认为是异常状态。
步骤S13:基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障。
当时序指标触发动态阈值或临界值时,进入故障预测判断。具体地,根据所述实时业务数据获取对应的业务特征数据;判断所述时序指标的所述实时时序数据是否大于所述动态阈值或所述临界值,如果是,则确定为异常状态;进一步根据所述业务特征数据以及所述异常状态预测是否发生故障。
负载均衡实例进行的业务或服务不同,其对应的业务特征数据也可能不同,根据不同指标类型自定义不同的预测模型。对于本发明实施例的负载均衡实例时延,从几个不同维度进行评估,包括持续时间、业务状态、数据去重等维度。
持续时间用于瞬时峰值模型,主要是因时序指标通常会产生瞬间峰值,而该类峰值对业务影响非常微小,需要规避该类数据,如图3所示。为规避该类异常,需追溯该时序指标的对应区间的历史时序数据值,对应区间的设定根据该类时序指标的容错时间得出。假设持续时间α,单位为秒,当时序数据值在该对应区间内的任一数据点小于动态阀值,则判断为瞬时峰值。以本文中的负载均衡实例时延为例,基于持续周期η和数据周期T,假设持续周期η≈5,那么持续时间α为:α=η*T。例如,负载均衡实例时延的时序数据周期为60s,则对应的持续时间为300s。
业务状态属于特征模型,不同时序指标关联不同业务特征模型,如本发明实施例的负载均衡实例时延,与之对应的还有该负载均衡实例的实时状态、并发连接数,当负载均衡实例时延增长时,对应的负载均衡实例业务状态是否正常,并发连接数是否增长。该特征模型需结合人工经验定制。
数据去重属于可选自定义模型,作用是确定是否持续进行告警消息发送,视不同时序指标、应用场景而定。
在本发明实施例中,所述时序指标的所述实时时序数据大于所述动态阈值或所述临界值时,确定为异常状态;进一步根据所述业务特征数据对所述异常状态进行过滤。对应的,所述时序指标的峰值的持续时间小于所述持续时间,则确定所述峰值为瞬时峰值,过滤对应的异常状态,即如果异常状态是由于瞬时峰值造成的,则过滤该异常状态。根据所述业务状态对所述异常状态进行过滤,即如果异常状态是由于业务状态引起的,则过滤该异常状态。例如,业务状态为0,没有执行对应的业务,时延超过动态阈值,此时的异常状态并不是有效的异常状态,应该滤除。去除重复的所述异常状态,例如,对于相同原因造成的持续的异常状态,只需要保留其中一个即可,去除其他重复的,如此后续不需要进行重复的告警消息发送。
在本发明实施例中,时序指标的时序数据大于动态阈值或临界值时,进入故障预测判断,抓住了故障即将发生的时间点,可以提前介入分析、处理,避免故障产生,而根据所述业务特征数据对所述异常状态进行过滤,实现去噪处理,能够进一步提高故障预测的准确度。
在本发明实施例中,确定发生故障时,获取关联业务的结构配置数据;将所述异常状态与所述结构配置数据关联生成告警消息;向预设平台发送所述告警消息。结构配置数据可以包括业务或服务类型、负载均衡实例的软硬件环境、业务端口等,进而将异常状态与结构配置数据关联自定义生成告警消息,并将该告警消息推送至工程师或其他相关平台,如神舟平台、网络自动化平台、微信等。本发明实施例根据故障预测结果自动生成告警消息并进行推送,可以作为其他技术栈的故障输入,进而根据告警消息内容,自动进行关联指标分析、故障定位、故障处理等。
本发明实施例通过获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;根据所述时序数据以及所述实时业务数据生成所述时序指标的动态阈值和临界值;基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障,能够自动生成动态阈值,极大降低日常维护时间的开销,能够抓住故障即将发生的时间点,可以提前介入分析、处理,避免故障产生,适应范围广。
图4示出了本发明实施例的基于时序数据的故障动态预测装置的结构示意图。如图4所示,该基于时序数据的故障动态预测装置包括:数据获取单元401、阈值生成单元402以及故障预测单元403。其中:
数据获取单元401用于获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;阈值生成单元402用于根据所述实时时序数据以及所述业务数据生成所述时序指标的动态阈值和临界值;故障预测单元403用于基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障。
在一种可选的方式中,阈值生成单元402用于:获取所述预设时间段内预设区间的历史时序数据;根据所述预设区间的所述历史时序数据生成所述时序指标的所述动态阈值;基于所述预设时间段内的所述历史时序数据根据经验设置所述时序指标的临界值。
在一种可选的方式中,阈值生成单元402用于:回溯预设天数d的所述历史时序数据;确定相邻两个历史时序数据的采集周期T;确定所述历史时序数据每天的开始时间St与结束时间Et,得到所述时序指标的所述历史时序数据总量n=(d×(Et-St))÷T。
在一种可选的方式中,阈值生成单元402还用于:根据所述预设区间的所述历史时序数据计算所述时序指标的均值m与标准差δ;根据所述时序指标的所述均值m、所述标准差δ以及预设的突变系数ψcv应用以下关系式计算动态阀值Nv=(δ+m)*ψcv,其中,i为正整数,i=1,2,…n。
在一种可选的方式中,故障预测单元403用于:根据所述业务数据获取对应的业务特征数据;判断所述时序指标的所述实时时序数据是否大于所述动态阈值或所述临界值,如果是,则确定为异常状态;进一步根据所述业务特征数据以及所述异常状态预测是否发生故障。
在一种可选的方式中,所述业务特征数据包括持续时间、业务状态以及数据去重,故障预测单元403用于:所述时序指标的峰值的持续时间小于所述持续时间,则确定所述峰值为瞬时峰值,过滤对应的异常状态;根据所述业务状态对所述异常状态进行过滤;去除重复的所述异常状态。
在一种可选的方式中,故障预测单元403还用于:确定发生故障时,获取关联业务的结构配置数据;将所述异常状态与所述结构配置数据关联生成告警消息;向预设平台发送所述告警消息。
本发明实施例通过获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;根据所述时序数据以及所述实时业务数据生成所述时序指标的动态阈值和临界值;基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障,能够自动生成动态阈值,极大降低日常维护时间的开销,能够抓住故障即将发生的时间点,可以提前介入分析、处理,避免故障产生,适应范围广。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于时序数据的故障动态预测方法。
可执行指令具体可以用于使得处理器执行以下操作:
获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;
根据所述实时时序数据以及所述业务数据生成所述时序指标的动态阈值和临界值;
基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
获取所述预设时间段内预设区间的历史时序数据;
根据所述预设区间的所述历史时序数据生成所述时序指标的所述动态阈值;
基于所述预设时间段内的所述历史时序数据根据经验设置所述时序指标的临界值。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
回溯预设天数d的所述历史时序数据;
确定相邻两个历史时序数据的采集周期T;
确定所述历史时序数据每天的开始时间St与结束时间Et,得到所述时序指标的所述历史时序数据总量n=(d×(Et-St))÷T。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据所述预设区间的所述历史时序数据计算所述时序指标的均值m与标准差δ;
根据所述时序指标的所述均值m、所述标准差δ以及预设的突变系数ψcv应用以下关系式计算动态阀值Nv=(δ+m)*ψcv,其中,i为正整数,i=1,2,…n。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据所述业务数据获取对应的业务特征数据;
判断所述时序指标的所述实时时序数据是否大于所述动态阈值或所述临界值,如果是,则确定为异常状态;
进一步根据所述业务特征数据以及所述异常状态预测是否发生故障。
在一种可选的方式中,所述业务特征数据包括持续时间、业务状态以及数据去重,所述可执行指令使所述处理器执行以下操作:
所述时序指标的峰值的持续时间小于所述持续时间,则确定所述峰值为瞬时峰值,过滤对应的异常状态;
根据所述业务状态对所述异常状态进行过滤;
去除重复的所述异常状态。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
确定发生故障时,获取关联业务的结构配置数据;
将所述异常状态与所述结构配置数据关联生成告警消息;
向预设平台发送所述告警消息。
本发明实施例通过获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;根据所述时序数据以及所述实时业务数据生成所述时序指标的动态阈值和临界值;基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障,能够自动生成动态阈值,极大降低日常维护时间的开销,能够抓住故障即将发生的时间点,可以提前介入分析、处理,避免故障产生,适应范围广。
本发明实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任意方法实施例中的基于时序数据的故障动态预测方法。
可执行指令具体可以用于使得处理器执行以下操作:
获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;
根据所述实时时序数据以及所述业务数据生成所述时序指标的动态阈值和临界值;
基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
获取所述预设时间段内预设区间的历史时序数据;
根据所述预设区间的所述历史时序数据生成所述时序指标的所述动态阈值;
基于所述预设时间段内的所述历史时序数据根据经验设置所述时序指标的临界值。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
回溯预设天数d的所述历史时序数据;
确定相邻两个历史时序数据的采集周期T;
确定所述历史时序数据每天的开始时间St与结束时间Et,得到所述时序指标的所述历史时序数据总量n=(d×(Et-St))÷T。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据所述预设区间的所述历史时序数据计算所述时序指标的均值m与标准差δ;
根据所述时序指标的所述均值m、所述标准差δ以及预设的突变系数ψcv应用以下关系式计算动态阀值Nv=(δ+m)*ψcv,其中,i为正整数,i=1,2,…n。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据所述业务数据获取对应的业务特征数据;
判断所述时序指标的所述实时时序数据是否大于所述动态阈值或所述临界值,如果是,则确定为异常状态;
进一步根据所述业务特征数据以及所述异常状态预测是否发生故障。
在一种可选的方式中,所述业务特征数据包括持续时间、业务状态以及数据去重,所述可执行指令使所述处理器执行以下操作:
所述时序指标的峰值的持续时间小于所述持续时间,则确定所述峰值为瞬时峰值,过滤对应的异常状态;
根据所述业务状态对所述异常状态进行过滤;
去除重复的所述异常状态。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
确定发生故障时,获取关联业务的结构配置数据;
将所述异常状态与所述结构配置数据关联生成告警消息;
向预设平台发送所述告警消息。
本发明实施例通过获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;根据所述时序数据以及所述实时业务数据生成所述时序指标的动态阈值和临界值;基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障,能够自动生成动态阈值,极大降低日常维护时间的开销,能够抓住故障即将发生的时间点,可以提前介入分析、处理,避免故障产生,适应范围广。
图5示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对设备的具体实现做限定。
如图5所示,该计算设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。处理器502,用于执行程序510,具体可以执行上述基于时序数据的故障动态预测方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或各个集成电路。设备包括的一个或各个处理器,可以是同一类型的处理器,如一个或各个CPU;也可以是不同类型的处理器,如一个或各个CPU以及一个或各个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;
根据所述实时时序数据以及所述业务数据生成所述时序指标的动态阈值和临界值;
基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障。
在一种可选的方式中,所述程序510使所述处理器执行以下操作:
获取所述预设时间段内预设区间的历史时序数据;
根据所述预设区间的所述历史时序数据生成所述时序指标的所述动态阈值;
基于所述预设时间段内的所述历史时序数据根据经验设置所述时序指标的临界值。
在一种可选的方式中,所述程序510使所述处理器执行以下操作:
回溯预设天数d的所述历史时序数据;
确定相邻两个历史时序数据的采集周期T;
确定所述历史时序数据每天的开始时间St与结束时间Et,得到所述时序指标的所述历史时序数据总量n=(d×(Et-St))÷T。
在一种可选的方式中,所述程序510使所述处理器执行以下操作:
根据所述预设区间的所述历史时序数据计算所述时序指标的均值m与标准差δ;
根据所述时序指标的所述均值m、所述标准差δ以及预设的突变系数ψcv应用以下关系式计算动态阀值Nv=(δ+m)*ψcv,其中,i为正整数,i=1,2,…n。
在一种可选的方式中,所述程序510使所述处理器执行以下操作:
根据所述业务数据获取对应的业务特征数据;
判断所述时序指标的所述实时时序数据是否大于所述动态阈值或所述临界值,如果是,则确定为异常状态;
进一步根据所述业务特征数据以及所述异常状态预测是否发生故障。
在一种可选的方式中,所述业务特征数据包括持续时间、业务状态以及数据去重,所述程序510使所述处理器执行以下操作:
所述时序指标的峰值的持续时间小于所述持续时间,则确定所述峰值为瞬时峰值,过滤对应的异常状态;
根据所述业务状态对所述异常状态进行过滤;
去除重复的所述异常状态。
在一种可选的方式中,所述程序510使所述处理器执行以下操作:
确定发生故障时,获取关联业务的结构配置数据;
将所述异常状态与所述结构配置数据关联生成告警消息;
向预设平台发送所述告警消息。
本发明实施例通过获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;根据所述时序数据以及所述实时业务数据生成所述时序指标的动态阈值和临界值;基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障,能够自动生成动态阈值,极大降低日常维护时间的开销,能够抓住故障即将发生的时间点,可以提前介入分析、处理,避免故障产生,适应范围广。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种基于时序数据的故障动态预测方法,其特征在于,所述方法包括:
获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;
根据所述实时时序数据以及所述业务数据生成所述时序指标的动态阈值和临界值;
基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障。
2.根据权利要求1所述的方法,其特征在于,所述根据所述实时时序数据以及所述业务数据生成所述时序指标的动态阈值和临界值,包括:
获取所述预设时间段内预设区间的历史时序数据;
根据所述预设区间的所述历史时序数据生成所述时序指标的所述动态阈值;
基于所述预设时间段内的所述历史时序数据根据经验设置所述时序指标的临界值。
3.根据权利要求2所述的方法,其特征在于,所述获取所述预设时间段内预设区间的所述历史时序数据,包括:
回溯预设天数d的所述历史时序数据;
确定相邻两个历史时序数据的采集周期T;
确定所述历史时序数据每天的开始时间St与结束时间Et,得到所述时序指标的所述历史时序数据总量n=(d×(Et-St))÷T。
4.根据权利要求3所述的方法,其特征在于,所述根据所述预设区间的所述历史时序数据生成所述时序指标的所述动态阈值,包括:
根据所述预设区间的所述历史时序数据计算所述时序指标的均值m与标准差δ;
根据所述时序指标的所述均值m、所述标准差δ以及预设的突变系数ψcv应用以下关系式计算动态阀值Nv=(δ+m)*ψcv,其中,i为正整数,i=1,2,…n。
5.根据权利要求1所述的方法,其特征在于,所述基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障,包括:
根据所述业务数据获取对应的业务特征数据;
判断所述时序指标的所述实时时序数据是否大于所述动态阈值或所述临界值,如果是,则确定为异常状态;
进一步根据所述业务特征数据以及所述异常状态预测是否发生故障。
6.根据权利要求5所述的方法,其特征在于,所述业务特征数据包括持续时间、业务状态以及数据去重,
所述根据所述业务特征数据以及所述异常状态预测是否发生故障包括:
所述时序指标的峰值的持续时间小于所述持续时间,则确定所述峰值为瞬时峰值,过滤对应的异常状态;
根据所述业务状态对所述异常状态进行过滤;
去除重复的所述异常状态。
7.根据权利要求1所述的方法,其特征在于,所述基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障之后,包括:
确定发生故障时,获取关联业务的结构配置数据;
将所述异常状态与所述结构配置数据关联生成告警消息;
向预设平台发送所述告警消息。
8.一种基于时序数据的故障动态预测装置,其特征在于,所述装置包括:
数据获取单元,用于获取负载均衡实例中时序指标的实时时序数据和关联的业务数据;
阈值生成单元,用于根据所述实时时序数据以及所述业务数据生成所述时序指标的动态阈值和临界值;
故障预测单元,用于基于所述时序指标的所述实时时序数据根据所述动态阈值、所述临界值以及关联的所述业务数据实时预测是否发生故障。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行根据权利要求1-7任一项所述基于时序数据的故障动态预测方法的步骤。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行根据权利要求1-7任一项所述基于时序数据的故障动态预测方法的步骤。
CN202010291668.1A 2020-04-14 2020-04-14 基于时序数据的故障动态预测方法、装置及计算设备 Active CN113541979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010291668.1A CN113541979B (zh) 2020-04-14 2020-04-14 基于时序数据的故障动态预测方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010291668.1A CN113541979B (zh) 2020-04-14 2020-04-14 基于时序数据的故障动态预测方法、装置及计算设备

Publications (2)

Publication Number Publication Date
CN113541979A true CN113541979A (zh) 2021-10-22
CN113541979B CN113541979B (zh) 2023-04-28

Family

ID=78120033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010291668.1A Active CN113541979B (zh) 2020-04-14 2020-04-14 基于时序数据的故障动态预测方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN113541979B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117744943A (zh) * 2023-12-27 2024-03-22 苏州市猎创信息技术有限公司 一种特种设备可视化登记监管平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106100937A (zh) * 2016-08-17 2016-11-09 北京百度网讯科技有限公司 系统监控方法和装置
CN110601900A (zh) * 2019-09-23 2019-12-20 中盈优创资讯科技有限公司 一种网络故障预警方法及装置
CN110784355A (zh) * 2019-10-30 2020-02-11 网宿科技股份有限公司 一种故障识别方法及装置
CN110807024A (zh) * 2019-10-12 2020-02-18 广州市申迪计算机系统有限公司 动态阈值异常检测方法、系统、存储介质及智能设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106100937A (zh) * 2016-08-17 2016-11-09 北京百度网讯科技有限公司 系统监控方法和装置
CN110601900A (zh) * 2019-09-23 2019-12-20 中盈优创资讯科技有限公司 一种网络故障预警方法及装置
CN110807024A (zh) * 2019-10-12 2020-02-18 广州市申迪计算机系统有限公司 动态阈值异常检测方法、系统、存储介质及智能设备
CN110784355A (zh) * 2019-10-30 2020-02-11 网宿科技股份有限公司 一种故障识别方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117744943A (zh) * 2023-12-27 2024-03-22 苏州市猎创信息技术有限公司 一种特种设备可视化登记监管平台
CN117744943B (zh) * 2023-12-27 2024-10-22 苏州市猎创信息技术有限公司 一种特种设备可视化登记监管平台

Also Published As

Publication number Publication date
CN113541979B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
US10318366B2 (en) System and method for relationship based root cause recommendation
EP3557819B1 (en) Server failure detection method and system
CN109412870B (zh) 告警监控方法及平台、服务器、存储介质
CN109039833B (zh) 一种监控带宽状态的方法和装置
US10909018B2 (en) System and method for end-to-end application root cause recommendation
CN112751726B (zh) 一种数据处理方法、装置、电子设备和存储介质
CN112231075A (zh) 一种基于云服务的服务器集群负载均衡控制方法及系统
CN107704387B (zh) 用于系统预警的方法、装置、电子设备及计算机可读介质
CN110569166A (zh) 异常检测方法、装置、电子设备及介质
CN112115031A (zh) 集群状态监控方法及装置
CN108154230A (zh) 深度学习处理器的监控方法和监控装置
CN111738463A (zh) 运维方法、装置、系统、电子设备及存储介质
CN111835578B (zh) 信息传输管理方法、信息传输管理装置及可读存储介质
CN112506619A (zh) 作业处理方法、装置、电子设备、存储介质和程序产品
CN113568740A (zh) 基于联邦学习的模型聚合方法、系统、设备及介质
CN114490078A (zh) 一种微服务的动态缩扩容方法、装置及设备
CN115150460B (zh) 一种节点安全注册方法、装置、设备及可读存储介质
CN113541979A (zh) 基于时序数据的故障动态预测方法、装置及计算设备
CN115499302A (zh) 业务系统的监测方法、装置、可读存储介质及电子设备
CN110750425A (zh) 数据库监控方法、装置、系统和存储介质
CN114861909A (zh) 模型质量监控方法、装置、电子设备以及存储介质
CN114885014A (zh) 一种外场设备状态的监测方法、装置、设备及介质
CN109298989A (zh) 业务指标阈值获取方法及装置
CN112561097A (zh) 一种基于云雾边协同的轴承监测方法及系统
CN117354206A (zh) 一种监控api接口的方法、装置、系统和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant