CN113572625B - 故障预警方法、预警装置、设备及计算机介质 - Google Patents

故障预警方法、预警装置、设备及计算机介质 Download PDF

Info

Publication number
CN113572625B
CN113572625B CN202010349192.2A CN202010349192A CN113572625B CN 113572625 B CN113572625 B CN 113572625B CN 202010349192 A CN202010349192 A CN 202010349192A CN 113572625 B CN113572625 B CN 113572625B
Authority
CN
China
Prior art keywords
index
data
early warning
abnormal
index data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010349192.2A
Other languages
English (en)
Other versions
CN113572625A (zh
Inventor
乔柏林
叶晓龙
胡林熙
蒋通通
刘苗苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010349192.2A priority Critical patent/CN113572625B/zh
Publication of CN113572625A publication Critical patent/CN113572625A/zh
Application granted granted Critical
Publication of CN113572625B publication Critical patent/CN113572625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例涉及人工智能技术领域,公开了一种基于多指标异动检测的故障预警方法,该方法包括:获取待预警原始业务数据,对待预警原始业务数据进行指标抽取得到指标数据;通过指标异动模型对指标数据进行异常分析,形成异常指标数据;确定异常指标的类型为单指标类型或多指标类型;当异常指标数据类型为单指标类型时,通过预设的单指标预警规则对异常指标数据进行分析,得到第一原始故障预警;当异常指标数据类型为多指标类型时,通过预设的预警模型对异常指标数据进行分析,输出第二原始故障预警;根据第一原始故障预警和/或第二原始故障预警,输出目标业务故障预警。通过上述方式,本发明实施例实现了提高业务故障判定的准确性的有益效果。

Description

故障预警方法、预警装置、设备及计算机介质
技术领域
本发明实施例涉及人工智能技术领域,具体涉及一种基于多指标异动检测的故障预警方法、预警装置、设备及计算机可读存储介质。
背景技术
在业务运营支撑中,目前广泛采用的有2种技术实现方式来实现业务故障监控和预警:一是单指标动态基线预警,二是单指标固定阀值告警。
对于单指标动态基线预警技术,其通过建立业务指标预测模型,根据业务指标的历史数据,根据模型预测出业务KPI指标的未来表现(指标区间),当指标超过(可能大于或者小于)预测值+/-动态容忍度时,判定为业务运行不正常,及时提前进行预警。
对于单指标固定阀值告警,一般由运维监控人员根据运维经验,人为定义业务的重要KPI指标(例如交易量、交易响应时长、交易成功率等)的阶梯性告警阀值,例如:交易响应时长低于3秒为运行正常,当超过3秒、低于4秒时为一般告警,超过4秒、低于5秒为重要告警,超过5秒为严重告警。
现有日常运维监控中,一般综合使用以上两种故障监控和预警技术,对于周期性变化不明显的业务指标,一般采用单指标固定阀值告警,对于随时间周期性变化比较明显的业务指标,则采用单指标动态基线预警。
然而,随着移动运营商第三代业务系统的云化和中间件平台的集群化,单点告警对于业务系统的影响越来越小,提前预判和规避影响用户感知的业务故障,成为运营商运维工作的重点。一直以来,运维值班人员判定故障发生,都是在收到告警消息后,通过人工进一步分析后才能确定。之所以借助告警消息来预判故障如此困难,是因为通过传统技术手段(简单阈值、动态阈值、趋势判断等)产生的告警,存在以下问题:
(1)告警总量大,故障告警量小:一般告警阈值都是针对单指标进行设定,会产生大量的告警,其中需要故障派单处理的告警就很少。特别是业务系统云化后,影响业务的关键故障告警还不到告警总量的0.1%。
(2)告警时间提前量小:为了避免误告警,一般告警阈值都会设定为临界值,告警产生了,故障也发生了,没有给运维人员留下任何的提前处理时间。
(3)告警不易关联判定故障:一般单一告警并不能判定故障发生,所以需要从大量告警中分析识别出故障的关联告警才能判定,还有部分故障需要通过非告警手段来确认。
因而,大部分故障都属于多维度数据异常特征判定,非简单规则算法所能描述,依靠传统的告警技术手段,并不能精准抓取复杂多变的故障数据特征,提前准确的预判业务故障。
发明内容
鉴于上述问题,本发明实施例提供了一种基于多指标异动检测的故障预警方法、物联网故障诊断方法、装置、设备及计算机可读存储介质,用于解决现有技术中存在的多维故障难以诊断且准确率低的问题。
根据本发明实施例的一个方面,提供了一种基于多指标异动检测的故障预警方法,所述方法包括:
获取待预警原始业务数据,对所述待预警原始业务数据进行指标抽取得到指标数据;
通过指标异动模型对指标数据进行异常分析,得到异常指标数据;
确定异常指标的类型为单指标类型或多指标类型;
当异常指标数据类型为单指标类型时,通过预设的单指标预警规则对所述异常指标数据进行分析,得到第一原始故障预警;
当异常指标数据类型为多指标类型时,通过预设的预警模型对所述异常指标数据进行分析,输出第二原始故障预警,其中,所述预设的预警模型是预先根据历史指标数据样本训练得到的;
根据第一原始故障预警和/或第二原始故障预警,输出目标业务故障预警。
在一种可选的方式中,在所述通过指标异动模型对指标数据进行异常标记,形成异常指标数据的步骤之前,还包括对所述指标数据进行预处理:
对所述指标数据进行数据分类,将所述指标数据分为周期性数据和非周期性数据;
对所述指标数据进行数据清洗,剔除无效数据;
对所述数据指标进行滤波处理,过滤噪声点;
对所述数据指标进行数据特征构造。
在一种可选的方式中,所述指标异动模型为异动检测算法权重组合,所述异动检测算法权重组合通过使用所述异动检测算法及对应的参数矩阵对所述指标数据进行遍历异动检测得到;
将所述指标数据输入所述异动检测算法权重组合中,得到异常指标数据。
在一种可选的方式中,通过GridSearch的方式使用所述多种异动检测算法和参数对所述指标数据进行遍历异动检测,得到所述异动检测算法权重组合。
在一种可选的方式中,所述预设预警模型为分别带权重的DNN模型、CNN模型及LSTM模型构成的权重混合模型,是预先根据历史指标数据样本及对应的业务故障标签对所述权重混合模型训练得到的。
在一种可选的方式中,根据第一原始故障预警和/或第二原始故障预警,得到目标业务故障预警,进一步包括:
分析所述第一原始故障预警和/或第二原始故障预警的预警连续性,根据预警连续性输出目标业务故障预警。
根据本发明实施例的另一方面,还提供了一种基于多指标异动检测的故障预警装置,包括:
指标数据抽取模块,用于获取待预警原始业务数据,对所述待预警原始业务数据进行指标抽取得到指标数据;
异常指标数据确定模块,用于通过指标异动模型对指标数据进行异常分析,形成异常指标数据;
指标类型确定模块,用于确定异常指标的类型为单指标类型或多指标类型;
单指标预警模块,用于当异常指标数据类型为单指标类型时,通过预设的单指标预警规则对所述异常指标数据进行分析,得到第一原始故障预警;
多指标预警模块,用于当异常指标数据类型为多指标类型时,通过预设的预警模型对所述异常指标数据进行分析,输出第二原始故障预警,其中,所述预设的预警模型是预先根据历史指标数据样本训练得到的;
目标故障预警输出模块,用于根据第一原始故障预警和/或第二原始故障预警,输出目标业务故障预警。
在一种可选的方式中,所述预设预警模型为分别带权重的DNN模型、CNN模型及LSTM模型构成的权重混合模型,是预先根据历史指标数据样本及对应的业务故障标签对所述权重混合模型训练得到的。
根据本发明实施例的另一方面,提供了一种基于多指标异动检测的故障预警设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述的基于多指标异动检测的故障预警方法的操作。
根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在物联网诊断设备/装置上运行时,使得所述物联网诊断设备/装置执行上述基于多指标异动检测的故障预警方法的操作。
本实施例的基于多指标异动检测的故障预警方法,通过业务故障对应的指标数据是判断单指标类型还是多指标类型,通过单指标预警规则对单指标类型的指标数据进行判断,对多指标数据通过预警模型来判断,能够根据业务关键点和运维痛点,合理筛选建立多指标多维度的预警模型,引入DNN为主体的混合神经元深度网络模型,快速学习判定多指标多维度的非线性数据特征,预判影响用户感知的业务故障,实现了对单一指标的简单故障场景和多指标复杂故障场景的业务故障判定,提高了业务故障判定的准确性。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的基于多指标异动检测的故障预警方法的流程示意图;
图2示出了本发明实施例提供的基于多指标异动检测的故障预警装置的结构示意图;
图3示出了本发明实施例提供的基于多指标异动检测的故障预警设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
本发明根据故障相关指标的复杂度,将故障分为单一指标的简单场景和多指标的复杂场景两类。针对单一指标的简单故障场景采用预设的单指标预警规则判定,多指标复杂故障场景采用预警模型对异常指标数据进行判定。
图1示出了本发明实施例提供的基于多指标异动检测的故障预警方法的流程示意图,该方法由基于多指标异动检测的故障预警装置执行。如图1所示,该方法包括以下步骤:
S110:获取待预警原始业务数据,对待预警原始业务数据进行指标抽取得到指标数据。
其中,待预警原始业务数据包括移动运营商业务系统的业务感知数据、应用进程数据、业务指标数据、及业务日志数据。这些数据存在不同的数据源中,从不同类型的数据源中按预设时间进行抽取得到指标数据。具体地,定期通过Etl抽取数据库数据,通过logstash抽取业务日志数据,通过kafka抽取消息数据,并实时抽取其他网络数据、中间件指标数据,以得指标数据。
这些指标数据是从能够反映出某一场景下业务系统整体运行的综合类指标中筛选出来的,包括业务量类指标、登录量类指标、接口调用成功率类指标、活跃用户数类指标、客户感知类指标5类、20多个的指标集合,根据具体的某一场景,进行不同组合形成不同的指标模型组,一个指标模型组可以包括以下不同数量的指标,分别用于智能预警。其中,业务量类指标包括KPI合作式渠道业务量、KPI营业厅业务量、KPI客服业务量、KPI-CRM平台、KPI-客服咨询量、KPI-客服迁出量;登录量类指标包括KPI-客服系统平台登录量、KPI-智能CRM平台登录量;接口调用成功率类指标包括KPI-全省业务探测成功率、KPI-CRM系统接口调用成功率、LPI-短厅接口调用成功率、KPI-网厅接口调用成功率、KPI-合作式渠道接口调用成功率、KPI手厅接口调用成功率、KPI-客服接口调用成功率、KPI-IVR接口调用成功率、KPI-网状网接口调用成功率;活跃用户数类指标包括KPI-营业厅活跃用户、KPI-合作式渠道活跃用户数;客户感知类指标包括KPI-营业厅前台卡顿、KPI-合作式渠道前台卡顿。所获取的待预警原始业务数据为一定时间内的数据,按照时间段统计成各个时间段内的业务数据,指标数据为时间序列数据。上述各个指标数据可以一个指标数据即可判断一个业务故障,即为单指标类型的指标数据。也可以是多个指标数据结合来判定业务故障,即为多指标类型的指标数据。这些指标数据的指标类型是根据历史业务故障所对应的业务数据进行分析得到的。具体地,对历史业务故障所对应的历史业务数据样本进行分析,得到对应的多个历史指标数据样本,分析该多个历史指标数据样本与业务故障的关联权重。
本实施例中,还需要对抽取得到的指标数据进行预处理,将原始指标进行清洗、补全、特征放大等处理,为指标数据的异常标记和AI预警判定做数据准备。具体地,包括以下步骤:
步骤1101:进行数据分析,针对不同类型的指标数据进行分类处理。将指标数据确定为周期性数据、非周期性数据等,其中,周期性数据为指标值随时间周期发生变化的数据,如业务量;非周期数据为指标值不随时间周期发生变化的数据,如成功率。分析周期性数据和非周期性数据,目的是为指标异动模型对指标数据进行异常标记时,选择不同的异动算法组合来进行检测。
步骤1102:进行数据清洗,将无效数据剔除。例如,凌晨割接不属于故障,产生的割接数据数据需要清洗掉。再者,使用插值的方法将指标数据进行补全,进行数据补全。如,全部指标都使用1分钟粒度,缺失数据补齐。采集粒度大于1分钟的指标,在未采集的空白时间,指标值为上一个采集时刻的指标值。
步骤1103:进行滤波处理。进行小窗口的均值滤波,过滤噪声点。
步骤1103:进行数据特征构造。对于周期性数据,根据指标值周期变化趋势,采用方差、标准差、均值等方式,对局部特征进行构造放大。对非异常孤立点,采用滤波算法进行平滑处理。对于非周期性数据,使用梯度特征表示指标突变,由于没有周期性,可使用全部数据统计计算特征。
S120:通过指标异动模型对指标数据进行异常标记,形成异常指标数据。
其中,指标异动模型为异动检测算法权重组合,是一个封装了多种异动检测算法的算法模型库。对于获取的多个指标数据,可同时采用算法模型库中多种不同异动检测算法权重组合进行异常判定和标记。这里,指标数据为时间序列数据。本实施例中,各个指标数据对应的指标异动模型,通过矩阵选择法预先匹配得到。具体地,使用多个异动检测算法和参数矩阵对指标数据进行遍历异动检测,选择符合预期的多个异动检测算法,将符合预期的多个异动检测算法进行权重组合,来以匹配对应的指标数据。在系统中,采用指标数据标识与对应的指标异动模型的表格进行查找,来将获得的指标数据输入对应的指标异动模型中,得到异常指标数据。
本实施例中,指标异动模型为根据算法模型库中的以下异动检测算法及对应的参数矩阵对所述指标数据进行遍历异动检测得到,通过下述异动检测算法中多个算法的权重组合来分析指标数据(时间序列数据),判断指标数据是否出现异常:
first_hour_average算法,比较对象不是指标数据的整个序列,而是开始一个小时的以内的数据,求出这段时间的均值和标准差和尾部数据(新产生的数据),用三倍方差方法求异常。
mean_subtraction_cumulation算法:排除掉全序列最后一个点;计算剩余点的平均值;所有点减去上一步计算的平均值,得到新的序列;求剩余序列的标准差;判断步骤3中得到的新序列的最后一个值是否大于3倍标准差。
stddev_from_average算法:求timeseries的mean;求timeseries的standarddeviation;求tail_avg到mean的距离,大于3倍的标准差则异常。该算法特点是可以有效屏蔽“在一个点上突变到很大的异常值但在下一个点回落到正常水平”的情况,适应于需要忽略“毛刺”数据的场景。
stddev_from_moving_average算法:先求出最后一个点处的指数加权移动平均值,然后再用最新的点,用三倍方差方法求异常。
least_squares算法:最小二乘法平差,在残差向量V和权矩阵P满足Vl’PV为最小的条件下,求取测量值和参数的最佳估值,并进行精度估计的的理论和方法。
grubbs算法:一种从样本中找出outlier的方法,所谓outlier,是指样本中偏离平均值过远的数据,他们有可能是极端情况下的正常数据,也有可能是测量过程中的错误数据,使用Grubbs算法需要总体是正态分布的。
histogram_bins算法:将timeseries划分成15个宽度相等的直方,然后判断tail_avg所在直方内的元素是否<=20,如果是,则异常,直方的个数和元素个数判定需要根据具体业务场景下的指标数据metrics调整。
median_absolute_deviation算法:绝对中位差实际求法是用原数据减去中位数后得到的新数据的绝对值的中位数。
Kolmogorov-Smirnov_test算法:将timeseries分成两段:最近10min(probe),1hour前到10min前这50分钟内(reference),两个样本通过Kolmogorov-Smirnov测试后判断差异是否较大。如果相差较大,则对refercence这段样本进行Augmented Dickey-Fuller检验(ADF检验),查看其平稳性,如果是平稳的,说明存在从平稳状态(50分钟)到另一个差异较大状态(10分钟)的突变,序列认为是异常的。
isolation_forest算法:Isolation Forest是无监督的高效的异常检测算法,采用二叉树去对数据进行切分,数据点在二叉树中所处的深度反应了该条数据的“疏离”程度,通过计算样本在所有树中的平均路径长度来寻找异常点。
在训练阶段,针对某一场景所需要的指标数据,通过对上述各个异动检测算法进行遍历,得到某一场景所需的指标所述对应的多个异动检测算法,通过权重结合的方式实现对某一场景下的指标数据的异动检测。异动检测算法权重结合的具体实现过程为:
本实施例中,各个指标数据对应的指标异动模型,通过矩阵选择法预先匹配得到。具体地,使用上述的多个异动检测算法和参数矩阵对指标数据进行遍历异动检测,选择符合预期的多个异动检测算法,将符合预期的多个异动检测算法进行权重组合,来以匹配对应的指标数据。
对于多类应用场景,其具有多个不同的业务数据,对应有多个不同的指标数据,因此,根据多个不同数据分布特点的指标数据,通过GridSearch的方式对每种异动检测算法和参数进行分析从而选出适合的若干算法,并通过异动检测算法投票的方式实现异动检测。Grid Search是一种调参手段,为穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果,具体参考表1。其原理就像是在数组里找最大值。以有两个参数的模型为例,参数a有3种可能,参数b有4种可能,把所有可能性列出来,可以表示成一个3*4的表格,其中每个cell就是一个网格,循环过程就像是在每个网格里遍历、搜索。
Figure BDA0002471323400000081
表1矩阵选择法匹配不同的指标
也即,在训练阶段,通过上述遍历检测,获得每一场景下所有指标数据适用的权重结合的多种异动检测算法,使得通过使用该多种算法权重结合来检测指标数据的异常,解决了由于指标数据的多样性,导致单一异常检测算法无法适用于所有业务指标的模式的问题。
本实施例中,采用矩阵选择法匹配多指标,实现时间窗选择和离群点检测的异动检测优化。对于指标数据的异常检测时,调整时间窗口的参数选择,使异动点符合预测。对于离群点的检测,结合孤立森林来进行检测。具体地,对于时间窗口的选择,大部分异动检测算法都是基于历史数据实现当前值变化的异动个检测,所以时间窗口(历史数据)的选择也是导致异动检测是否符合预期的关键因素。对于离群点的检测,有一些指标的异动个点无法通过统计、距离等异动检测算法进行异动点检测,例如:以下指标在连续正常下降的时候有一个突降,即使通过调整时间窗口、标准差等异动检测算法参数能够达到此异动点的检测,也仅仅是适用于此特例模式,此时就应采用孤立森林方法来综合检测。
S130:确定异常指标的类型为单指标类型或多指标类型。单指标类型指的是简单故障场景中通过单一指标即可确定故障的一类指标类型;多指标类型指的是复杂故障场景下需要多个指标结合来判断该故障的指标类型。
在移动运营商的业务系统的云化和中间件平台中,有多种业务数据,对应有多种指标数据,有些指标数据为单指标类型的指标数据,当该单指标类型的指标数据出现问题时,表示对应的一个业务出现故障。而有些业务故障对应多个指标数据,需要多个指标数据综合判断,才能确定该业务故障。例如,对于多指标类型,某大型交易系统业务量突然下降10%,且持续时间10分钟,首先需判断对应同期交易量是不是正常波动,然后判断对应的中间件、网络、数据库等指标是否正常,如果这些都正常,则判断为正常波动。一般使用平方差,且同期交易量使用前一段时间的平均值。
对于单指标类型和多指标类型的指标数据的判断,在训练阶段即可确定哪些指标是单指标类型哪些是多指标类型。具体地,在训练阶段,对于指标数据样本中的各个指标数据,分别输入该预警模型中,获得各个指标数据对应各业务故障的一个权重。如果对应一个业务故障的多个指标数据中只有一个指标数据的相对权重值达到一个高阈值(如超过90%),则说明该指标数据对于该业务故障具有较高的影响,该指标数据不正常则大概率发生了该业务故障,因此直接将此指标数据作为单指标类型的指标数据,使用单指标模型进行预警。如果对应一个业务故障的多个指标数据的权重较为接近,则说明该业务故障需要由该多个指标数据综合进行判断,表示这些指标数据为多指标类型的数据,则为这些指标数据配置对应的预警模型。
因此,在本实施中,可以根据训练阶段预先得到的各个指标数据的指标类型在系统中进行标识。根据标识和对应的列表确定获取到的指标数据是单指标类型还是多指标类型。列表中可以包括标识、指标类型及对应的单指标预警规则或预警模型。
在本实施例中,每一种指标数据在该预警装置中都可以用固定标识来表示,如业务量类指标、登录量类指标、接口调用成功率类指标、活跃用户数类指标可用KPI_业务量_XXX、KPI_登录量_XXX、KPI_接口调用成功率_XXX、KPI_活跃用户数_XXX来标识,XXX为具体的指标。业务量类指标包括KPI合作式渠道业务量用KPI_业务量_合作式渠道、KPI_业务量_营业厅、KPI_业务量_客服等。如采集的时间间隔为t1,则每一类指标数据可以按时间顺序来标识某一个指标数据及采集时间:KPI_业务量_XXX_1,KPI_业务量_XXX_2,...,KPI_业务量_XXX_n;KPI_接口调用成功率_XXX_1,KPI_接口调用成功率_XXX_2,...,KPI_接口调用成功率_XXX_n;KPI_活跃用户数_XXX_1,KPI_活跃用户数_XXX_2,...,KPI_活跃用户数_XXX_n等等。因此,该预警装置可按照标识来识别每一类指标数据的类型以及每一类指标数据的采集时间。如,当识别到KPI_业务量_XXX时,表示多指标类型的数据,需要预警模型进行判断。识别到每一指标数据的类别后,根据每一类指标数据的类型将其分为单指标类型或多指标类型,并输入预设的单指标预警规则或预设的预警模型中进行判断。
S140:当异常指标数据类型为单指标类型时,通过预设的单指标预警规则对所述异常指标数据进行计算,得到第一原始故障预警。
其中,预设的单指标预警规则为判断单指标类型的指标数据对应的业务模块是否产生异常的判定规则。预设的单指标预警规则可以是现有技术中采用单指标进行预警的规则,如单指标固定阀值告警、单指标动态基线预警等,也可以是为某一业务场景的单指标故障而具体设置的规则。本实施例中,当异常指标数据类型为单指标类型时,异常指标数据为接口成功率。预警判定规则可以是接口的成功率阈值。当某个接口的成功率低于预设成功率阈值时,表示该接口出现故障了,也即第一原始故障预警为接口故障。
S150:当异常指标数据类型为多指标类型时,通过预设的预警模型对所述异常指标数据进行分析,输出第二原始故障预警。
本实施例中,预设的预警模型为多个权重混合模型,每一个权重混合模型均是一个以DNN模型为主导,以CNN和LSTM作为时间序列信息的补充的权重混合模型。通过将每一类训练数据分别输入权重混合模型训练得到训练后的权重混合模型。具体地,对算法模型建模,调整参数,把调优后的模型用于实时数据运算。该权重混合模型是通过将DNN、CNN、LSTM三种神经元模型融合,并建立带权重的投票选择机制,将某一类训练数据输入三种神经元模型,让三种神经元模型结果相互补充。通过不同权重的模型同时打分训练,最终按F1值高的组合最为最优模型。最终得到以DNN模型为主导,赋予其较大权重,以CNN模型和LSTM模型作为时间序列信息的补充,得到了一个最优模型。具体的权重设置,根据不同场景下的历史指标数据输入不同权重设置的权重混合模型中,根据输入不同权重组合的权重混合模型中,计算每个模型的F1值,其中,F1=2*((精准率*召回率)/(精准率+召回率))。根据F1值得到最优权重比例的权重混合模型,作为预设的预警模型。
本发明设置权重混合模型,是由于故障预警在人工智能中属于“时间序列异常”判定,基于GoogleTensorflow平台先后对DNN、CNN、LSTM三种神经元模型验证,针对不同的故障样例数据,三种模型表现各有不同。其中,DNN由多层神经元通过全连接的方式连接构成,可拟合各种线性非线性模型,训练速度较快,适合大部分场景,但网络的输出只与当前时刻的输入有关,无法将上下文的信息加入到训练当中,在一些较复杂异常模式下准确率较其他深度学习网络模型较低。CNN增加了卷积层和池化层,由于数据在卷积神经网络中以二维矩阵的形式传播,所以网络不但能够提取同一时刻不同维度的特征之间的特征,也能提取相邻时间数据之间的特征,同时卷积神经网络结构更复杂,拟合能力更强,在复杂异常模式下表现较好。LSTM常被用来处理时序数据,具有遗忘机制,对较少指标简单场景较为有效,而对多指标复杂场景效果较差。模型优选过程中分别测试了独立网络的F1值(F1=2*((精准率*召回率)/(精准率+召回率)))和三种网络不同权重混合模式下的F1值,得出一定权重比例下的三种网络融合的混合模型表现优于独立网络。因此,本实施例采用权重混合模型,以达到适应复杂异常模式,能够对多种异常指标数据进行业务故障准确判断的技术效果。
具体的,本实施例中,通过预先设置好的指标数据样本及对应的业务故障标签,输入到不同权重结合的DNN模型、CNN模型、LSTM模型中,进行训练得到权重比例以及每个模型中的最优参数,从而得到最优权重的模型组合,作为预警模型。如,在某一业务场景下,设置DNN模型、CNN模型、LSTM模型的权重比例为1:0:0,结合指标数据样本进行训练,得到F1值为0.7229;...,在权重比例为3:1:1,结合指标数据样本进行训练,得到F1值为0.883。依权重组合训练后,得到权重比例为3:1:1的F1值最优,因此,将DNN模型、CNN模型、LSTM为3:1:1的模型作为预设预警模型。此外,在预警模型训练的过程中,可以通过模型训练过程,判断哪些指标数据是对某类故障有用的数据,哪些是无用的指标数据。
本实施例中,为了提升模型训练和优化效率,建立了模型实验室AI Labs。通过在线获取或离线导出有效故障预警的指标数据,进行持续的故障预警模型的优化训练,形成了在线预测反馈与模型训练间的闭环。模型实验室AILabs支持可视化的训练操作,快速进行数据预处理和模型参数调优,提升了预警AI模型的优化效率。
AI Labs具体功能包括提升参数调优效率和优化损失函数。
对于提升参数调优效率,本实施例中,预警模型的超参数调优使用AutoLearning模式对超参数进行调优,并设置以下策略搜索最优超参数:
对于概率提升:根据网络参数变化和网络性能变化先验知识,预测性能提高的概率值,选择最优者。
对于期望提升:计算网络性能对参数的偏导数,选较大者。
对于交叉熵:根据网络性能参数计算资源消耗,选最小者。
通过以上优化策略和AutoLearning模式,可以达到节省人力成本,节约计算资源,快速调优的目的。
对于优化损失函数,由于在训练模型中,需要定义一个损失函数来衡量模型的效果,以损失函数的值最小为优化目标学习网络的参数。常常需要根据实际需要,修改或自定义网络模型的损失函数。在异常检测问题中,误报和漏报是降低准确度的两个原因,因为故障具有其特殊的业务意义,在实际生产中,漏报的后果往往比误报严重。如果不使用自定义的损失函数的话,误报和漏报将处于同等重要的地位。
另由于故障的特性,训练数据中异常数据的数量远远小于正常数据的数量,导致异常指标检测漏报的可能性远高于误报。在本实施例中,正常数据的数量占总数据的90%以上,即算法将全部输入都分类为正常数据,也能得到很低的loss值,不修改损失函数直接训练,会出现模型损失低,漏报多的情况。
Figure BDA0002471323400000121
表2预警模型的损失函数优化
从表2中可以看出,若数据和损失函数不进行处理直接训练,模型会极度倾向于将数据分类为正常,效果最差;使用smote算法对负样本进行增强后训练,漏报率和误报率下降,准确率上升;使用smote算法和自定义损失函数训练,漏报率降为0,误报率下降,准确率升高,模型达到最优。
综合以上两点,修改了预设的预警模型的损失函数,将损失分为漏报的损失和误报的损失两部分,并赋予两部分损失不同的权重。
Figure BDA0002471323400000122
其中,Y是实际采集值,f(x)是根据公式计算的值,|y-f(x)|和
Figure BDA0002471323400000123
的插值和一个
Figure BDA0002471323400000134
值进行比对,计算得到函数
Figure BDA0002471323400000131
Figure BDA0002471323400000132
需要选定一个范围后迭代训练,最终根据
Figure BDA0002471323400000133
求和最小值得到最优值。使用该自定义损失函数后,减少了漏报,优化了模型。
S160:根据第一原始故障预警或第二原始故障预警,得到目标业务故障预警。
具体地,本实施例中,分析该第一原始故障预警或第二原始故障预警的结果的连续性,若在一定时间内连续出现多次原始故障预警,则发出目标业务故障预警。本实施例中,在连续发出三次原始故障预警时,则判断业务故障,发出目标业务故障预警。目标业务故障预警信息包括系统故障信息以及故障对应的指标数据。
此外,还可以动态刷新预警状态,跟踪判断故障影响的业务、系统、地市范围的变化。当产生预警时同步显示异常指标,为用户排障提供数据依据,可直接生成可编辑的预警信息方便发送微信群,提供对预警信息的操作。
本实施例的基于多指标异动检测的故障预警方法,通过业务故障对应的指标数据是判断单指标类型还是多指标类型,通过单指标预警规则对单指标类型的指标数据进行判断,对多指标数据通过预警模型来判断,能够根据业务关键点和运维痛点,合理筛选建立多指标多维度的预警模型,引入DNN为主体的混合神经元深度网络模型,快速学习判定多指标多维度的非线性数据特征,预判影响用户感知的业务故障,实现了对单一指标的简单故障场景和多指标复杂故障场景的业务故障判定,提高了业务故障判定的准确性。
图2示出了本发明基于多指标异动检测的故障预警装置一个实施例的结构示意图。如图2所示,该装置200包括:指标数据抽取模块210、异常指标数据确定模块220、指标类型确定模块230、单指标预警模块240、多指标预警模块250、目标故障预警输出模块260。
指标数据抽取模块210,用于获取待预警原始业务数据,对所述待预警原始业务数据进行指标抽取得到指标数据。
异常指标数据确定模块220,用于通过指标异动模型对指标数据进行异常分析,形成异常指标数据。
指标类型确定模块230,用于确定异常指标的类型为单指标类型或多指标类型。
单指标预警模块240,用于当异常指标数据类型为单指标类型时,通过预设的单指标预警规则对所述异常指标数据进行分析,得到第一原始故障预警。
多指标预警模块250,用于当异常指标数据类型为多指标类型时,通过预设的预警模型对所述异常指标数据进行分析,输出第二原始故障预警,其中,所述预设的预警模型是预先根据历史指标数据样本训练得到的。
目标故障预警输出模块260,用于根据第一原始故障预警和/或第二原始故障预警,输出目标业务故障预警。
各模块具体的工作过程如下:
指标数据抽取模块210获取待预警原始业务数据,对待预警原始业务数据进行指标抽取得到指标数据。
其中,待预警原始业务数据包括移动运营商业务系统的业务感知数据、应用进程数据、业务指标数据、及业务日志数据。这些数据存在不同的数据源中,从不同类型的数据源中按预设时间进行抽取得到指标数据。具体地,定期通过Etl抽取数据库数据,通过logstash抽取业务日志数据,通过kafka抽取消息数据,并实时抽取其他网络数据、中间件指标数据,以得指标数据。
这些指标数据是从能够反映出某一场景下业务系统整体运行的综合类指标中筛选出来的,包括业务量类指标、登录量类指标、接口调用成功率类指标、活跃用户数类指标、客户感知类指标5类、20多个的指标集合,根据具体的某一场景,进行不同组合形成不同的指标模型组,一个指标模型组可以包括以下不同数量的指标,分别用于智能预警。其中,业务量类指标包括KPI合作式渠道业务量、KPI营业厅业务量、KPI客服业务量、KPI-CRM平台、KPI-客服咨询量、KPI-客服迁出量;登录量类指标包括KPI-客服系统平台登录量、KPI-智能CRM平台登录量;接口调用成功率类指标包括KPI-全省业务探测成功率、KPI-CRM系统接口调用成功率、LPI-短厅接口调用成功率、KPI-网厅接口调用成功率、KPI-合作式渠道接口调用成功率、KPI手厅接口调用成功率、KPI-客服接口调用成功率、KPI-IVR接口调用成功率、KPI-网状网接口调用成功率;活跃用户数类指标包括KPI-营业厅活跃用户、KPI-合作式渠道活跃用户数;客户感知类指标包括KPI-营业厅前台卡顿、KPI-合作式渠道前台卡顿。所获取的待预警原始业务数据为一定时间内的数据,按照时间段统计成各个时间段内的业务数据,指标数据为时间序列数据。上述各个指标数据可以一个指标数据即可判断一个业务故障,即为单指标类型的指标数据。也可以是多个指标数据结合来判定业务故障,即为多指标类型的指标数据。这些指标数据的指标类型是根据历史业务故障所对应的业务数据进行分析得到的。具体地,对历史业务故障所对应的历史业务数据样本进行分析,得到对应的多个历史指标数据样本,分析该多个历史指标数据样本与业务故障的关联权重。
本实施例中,还包括数据预处理模块,用于对抽取得到的指标数据进行预处理,将原始指标进行清洗、补全、特征放大等处理,为指标数据的异常标记和AI预警判定做数据准备。具体地,数据预处理模块的工作过程为:
进行数据分析:针对不同类型的指标数据进行分类处理。将指标数据确定为周期性数据、非周期性数据等,其中,周期性数据为指标值随时间周期发生变化的数据,如业务量;非周期数据为指标值不随时间周期发生变化的数据,如成功率。分析周期性数据和非周期性数据,目的是为指标异动模型对指标数据进行异常标记时,选择不同的异动算法组合来进行检测。
进行数据清洗:将无效数据剔除。例如,凌晨割接不属于故障,产生的割接数据数据需要清洗掉。再者,使用插值的方法将指标数据进行补全,进行数据补全。如,全部指标都使用1分钟粒度,缺失数据补齐。采集粒度大于1分钟的指标,在未采集的空白时间,指标值为上一个采集时刻的指标值。
进行滤波处理:进行小窗口的均值滤波,过滤噪声点。
进行数据特征构造:对于周期性数据,根据指标值周期变化趋势,采用方差、标准差、均值等方式,对局部特征进行构造放大。对非异常孤立点,采用滤波算法进行平滑处理。对于非周期性数据,使用梯度特征表示指标突变,由于没有周期性,可使用全部数据统计计算特征。
异常指标数据确定模块220通过指标异动模型对指标数据进行异常标记,形成异常指标数据。
其中,指标异动模型为异动检测算法权重组合,是一个封装了多种异动检测算法的算法模型库。对于获取的多个指标数据,可同时采用算法模型库中多种不同异动检测算法权重组合进行异常判定和标记。这里,指标数据为时间序列数据。本实施例中,各个指标数据对应的指标异动模型,通过矩阵选择法预先匹配得到。具体地,使用多个异动检测算法和参数矩阵对指标数据进行遍历异动检测,选择符合预期的多个异动检测算法,将符合预期的多个异动检测算法进行权重组合,来以匹配对应的指标数据。在系统中,采用指标数据标识与对应的指标异动模型的表格进行查找,来将获得的指标数据输入对应的指标异动模型中,得到异常指标数据。
本实施例中,指标异动模型为根据算法模型库中的以下异动检测算法及对应的参数矩阵对所述指标数据进行遍历异动检测得到,通过下述异动检测算法中多个算法的权重组合来分析指标数据(时间序列数据),判断指标数据是否出现异常:
first_hour_average算法,比较对象不是指标数据的整个序列,而是开始一个小时的以内的数据,求出这段时间的均值和标准差和尾部数据(新产生的数据),用三倍方差方法求异常。
mean_subtraction_cumulation算法:排除掉全序列最后一个点;计算剩余点的平均值;所有点减去上一步计算的平均值,得到新的序列;求剩余序列的标准差;判断步骤3中得到的新序列的最后一个值是否大于3倍标准差。
stddev_from_average算法:求timeseries的mean;求timeseries的standarddeviation;求tail_avg到mean的距离,大于3倍的标准差则异常。该算法特点是可以有效屏蔽“在一个点上突变到很大的异常值但在下一个点回落到正常水平”的情况,适应于需要忽略“毛刺”数据的场景。
stddev_from_moving_average算法:先求出最后一个点处的指数加权移动平均值,然后再用最新的点,用三倍方差方法求异常。
least_squares算法:最小二乘法平差,在残差向量V和权矩阵P满足Vl’PV为最小的条件下,求取测量值和参数的最佳估值,并进行精度估计的的理论和方法。
grubbs算法:一种从样本中找出outlier的方法,所谓outlier,是指样本中偏离平均值过远的数据,他们有可能是极端情况下的正常数据,也有可能是测量过程中的错误数据,使用Grubbs算法需要总体是正态分布的。
histogram_bins算法:将timeseries划分成15个宽度相等的直方,然后判断tail_avg所在直方内的元素是否<=20,如果是,则异常,直方的个数和元素个数判定需要根据具体业务场景下的指标数据metrics调整。
median_absolute_deviation算法:绝对中位差实际求法是用原数据减去中位数后得到的新数据的绝对值的中位数。
Kolmogorov-Smirnov_test算法:将timeseries分成两段:最近10min(probe),1hour前到10min前这50分钟内(reference),两个样本通过Kolmogorov-Smirnov测试后判断差异是否较大。如果相差较大,则对refercence这段样本进行Augmented Dickey-Fuller检验(ADF检验),查看其平稳性,如果是平稳的,说明存在从平稳状态(50分钟)到另一个差异较大状态(10分钟)的突变,序列认为是异常的。
isolation_forest算法:Isolation Forest是无监督的高效的异常检测算法,采用二叉树去对数据进行切分,数据点在二叉树中所处的深度反应了该条数据的“疏离”程度,通过计算样本在所有树中的平均路径长度来寻找异常点。
在训练阶段,针对某一场景所需要的指标数据,通过对上述各个异动检测算法进行遍历,得到某一场景所需的指标所述对应的多个异动检测算法,通过权重结合的方式实现对某一场景下的指标数据的异动检测。异动检测算法权重结合的具体实现过程为:
本实施例中,各个指标数据对应的指标异动模型,通过矩阵选择法预先匹配得到。具体地,使用上述的多个异动检测算法和参数矩阵对指标数据进行遍历异动检测,选择符合预期的多个异动检测算法,将符合预期的多个异动检测算法进行权重组合,来以匹配对应的指标数据。对于多类应用场景,其具有多个不同的业务数据,对应有多个不同的指标数据,因此,根据多个不同数据分布特点的指标数据,通过GridSearch的方式对每种异动检测算法和参数进行分析从而选出适合的若干算法,并通过异动检测算法投票的方式实现异动检测。Grid Search是一种调参手段,为穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果,具体参考表1。其原理就像是在数组里找最大值。以有两个参数的模型为例,参数a有3种可能,参数b有4种可能,把所有可能性列出来,可以表示成一个3*4的表格,其中每个cell就是一个网格,循环过程就像是在每个网格里遍历、搜索。
Figure BDA0002471323400000171
表1矩阵选择法匹配不同的指标
也即,在训练阶段,通过上述遍历检测,获得每一场景下所有指标数据适用的权重结合的多种异动检测算法,使得通过使用该多种算法权重结合来检测指标数据的异常,解决了由于指标数据的多样性,导致单一异常检测算法无法适用于所有业务指标的模式的问题。
本实施例中,对于指标数据的异常检测时,调整时间窗口的选择,并对离群点进行检测。对于时间窗口的选择,大部分异动检测算法都是基于历史数据实现当前值变化的异动个检测,所以时间窗口(历史数据)的选择也是导致异动检测是否符合预期的关键因素。对于离群点的检测,有一些指标的异动个点无法通过统计、距离等异动检测算法进行异动点检测,例如:以下指标在连续正常下降的时候有一个突降,即使通过调整时间窗口、标准差等异动检测算法参数能够达到此异动点的检测,也仅仅是适用于此特例模式,此时就应采用孤立森林方法来综合检测。
指标类型确定模块230确定异常指标的类型为单指标类型或多指标类型。单指标类型指的是简单故障场景中通过单一指标即可确定故障的一类指标类型;多指标类型指的是复杂故障场景下需要多个指标结合来判断该故障的指标类型。
在移动运营商的业务系统的云化和中间件平台中,有多种业务数据,对应有多种指标数据,有些指标数据为单指标类型的指标数据,当该单指标类型的指标数据出现问题时,表示对应的一个业务出现故障。而有些业务故障对应多个指标数据,需要多个指标数据综合判断,才能确定该业务故障。例如,对于多指标类型,某大型交易系统业务量突然下降10%,且持续时间10分钟,首先需判断对应同期交易量是不是正常波动,然后判断对应的中间件、网络、数据库等指标是否正常,如果这些都正常,则判断为正常波动。一般使用平方差,且同期交易量使用前一段时间的平均值。
对于单指标类型和多指标类型的指标数据的判断,在训练阶段即可确定哪些指标是单指标类型哪些是多指标类型。具体地,在训练阶段,对于指标数据样本中的各个指标数据,分别输入该预警模型中,获得各个指标数据对应各业务故障的一个权重。如果对应一个业务故障的多个指标数据中只有一个指标数据的相对权重值达到一个高阈值(如超过90%),则说明该指标数据对于该业务故障具有较高的影响,该指标数据不正常则大概率发生了该业务故障,因此直接将此指标数据作为单指标类型的指标数据,使用单指标模型进行预警。如果对应一个业务故障的多个指标数据的权重较为接近,则说明该业务故障需要由该多个指标数据综合进行判断,表示这些指标数据为多指标类型的数据,则为这些指标数据配置对应的预警模型。
因此,在本实施中,可以根据训练阶段预先得到的各个指标数据的指标类型在系统中进行标识。根据标识和对应的列表确定获取到的指标数据是单指标类型还是多指标类型。列表中可以包括标识、指标类型及对应的单指标预警规则或预警模型。
在本实施例中,每一种指标数据在该预警装置中都可以用固定标识来表示,如业务量类指标、登录量类指标、接口调用成功率类指标、活跃用户数类指标可用KPI_业务量_XXX、KPI_登录量_XXX、KPI_接口调用成功率_XXX、KPI_活跃用户数_XXX来标识,XXX为具体的指标。业务量类指标包括KPI合作式渠道业务量用KPI_业务量_合作式渠道、KPI_业务量_营业厅、KPI_业务量_客服等。如采集的时间间隔为t1,则每一类指标数据可以按时间顺序来标识某一个指标数据及采集时间:KPI_业务量_XXX_1,KPI_业务量_XXX_2,...,KPI_业务量_XXX_n;KPI_接口调用成功率_XXX_1,KPI_接口调用成功率_XXX_2,...,KPI_接口调用成功率_XXX_n;KPI_活跃用户数_XXX_1,KPI_活跃用户数_XXX_2,...,KPI_活跃用户数_XXX_n等等。因此,该预警装置可按照标识来识别每一类指标数据以及每一类指标数据的采集时间。如,当识别到KPI_业务量_XXX时,表示多指标类型的数据,需要预警模型进行判断。识别到每一指标数据的类别后,根据每一类指标数据的类型将其分为单指标类型或多指标类型,并输入预设的单指标预警规则或预设的预警模型中进行判断。
当异常指标数据类型为单指标类型时,单指标预警模块240通过预设的单指标预警规则对所述异常指标数据进行计算,得到第一原始故障预警。
其中,预设的单指标预警规则为判断单指标类型的指标数据对应的业务模块是否产生异常的判定规则。预设的单指标预警规则可以是现有技术中采用单指标进行预警的规则,如单指标固定阀值告警、单指标动态基线预警等,也可以是为某一业务场景的单指标故障而具体设置的规则。本实施例中,当异常指标数据类型为单指标类型时,异常指标数据为接口成功率。预警判定规则可以是接口的成功率阈值。当某个接口的成功率低于预设成功率阈值时,表示该接口出现故障了,也即第一原始故障预警为接口故障。
当异常指标数据类型为多指标类型时,多指标预警模块250通过预设的预警模型对所述异常指标数据进行分析,输出第二原始故障预警。
本实施例中,预设的预警模型为多个权重混合模型,每一个权重混合模型均是一个以DNN模型为主导,以CNN和LSTM作为时间序列信息的补充的权重混合模型。通过将每一类训练数据分别输入权重混合模型训练得到训练后的权重混合模型。具体地,该权重混合模型是通过将DNN、CNN、LSTM三种神经元模型融合,并建立带权重的投票选择机制,将某一类训练数据输入三种神经元模型,让三种神经元模型结果相互补充。通过不同权重的模型同时打分训练,最终按F1值高的组合最为最优模型。最终得到以DNN模型为主导,赋予其较大权重,以CNN模型和LSTM模型作为时间序列信息的补充,得到了一个最优模型。具体的权重设置,根据不同场景下的历史指标数据输入不同权重设置的权重混合模型中,根据输入不同权重组合的权重混合模型中,计算每个模型的F1值,其中,F1=2*((精准率*召回率)/(精准率+召回率))。根据F1值得到最优权重比例的权重混合模型,作为预设的预警模型。
本发明设置权重混合模型,是由于故障预警在人工智能中属于“时间序列异常”判定,基于GoogleTensorflow平台先后对DNN、CNN、LSTM三种神经元模型验证,针对不同的故障样例数据,三种模型表现各有不同。其中,DNN由多层神经元通过全连接的方式连接构成,可拟合各种线性非线性模型,训练速度较快,适合大部分场景,但网络的输出只与当前时刻的输入有关,无法将上下文的信息加入到训练当中,在一些较复杂异常模式下准确率较其他深度学习网络模型较低。CNN增加了卷积层和池化层,由于数据在卷积神经网络中以二维矩阵的形式传播,所以网络不但能够提取同一时刻不同维度的特征之间的特征,也能提取相邻时间数据之间的特征,同时卷积神经网络结构更复杂,拟合能力更强,在复杂异常模式下表现较好。LSTM常被用来处理时序数据,具有遗忘机制,对较少指标简单场景较为有效,而对多指标复杂场景效果较差。模型优选过程中分别测试了独立网络的F1值(F1=2*((精准率*召回率)/(精准率+召回率)))和三种网络不同权重混合模式下的F1值,得出一定权重比例下的三种网络融合的混合模型表现优于独立网络。因此,本实施例采用权重混合模型,以达到适应复杂异常模式,能够对多种异常指标数据进行业务故障准确判断的技术效果。
具体的,本实施例中,通过预先设置好的指标数据样本及对应的业务故障标签,输入到不同权重结合的DNN模型、CNN模型、LSTM模型中,进行训练得到权重比例以及每个模型中的最优参数,从而得到最优权重的模型组合,作为预警模型。如,在某一业务场景下,设置DNN模型、CNN模型、LSTM模型的权重比例为1:0:0,结合指标数据样本进行训练,得到F1值为0.7229;...,在权重比例为3:1:1,结合指标数据样本进行训练,得到F1值为0.883。依权重组合训练后,得到权重比例为3:1:1的F1值最优,因此,将DNN模型、CNN模型、LSTM为3:1:1的模型作为预设预警模型。
此外,在预警模型训练的过程中,可以通过模型训练过程,判断哪些指标数据是对某类故障有用的数据,哪些是无用的指标数据。
本实施例中,为了提升模型训练和优化效率,设置了模型优化模块作为模型实验室AI Labs。通过在线获取或离线导出有效故障预警的指标数据,进行持续的故障预警模型的优化训练,形成了在线预测反馈与模型训练间的闭环。模型实验室AILabs支持可视化的训练操作,快速进行数据预处理和模型参数调优,提升了预警AI模型的优化效率。
AI Labs具体功能包括提升参数调优效率和优化损失函数。
对于提升参数调优效率,本实施例中,预警模型的超参数调优使用AutoLearning模式对超参数进行调优,并设置以下策略搜索最优超参数:
对于概率提升:根据网络参数变化和网络性能变化先验知识,预测性能提高的概率值,选择最优者。
对于期望提升:计算网络性能对参数的偏导数,选较大者。
对于交叉熵:根据网络性能参数计算资源消耗,选最小者。
通过以上优化策略和AutoLearning模式,可以达到节省人力成本,节约计算资源,快速调优的目的。
对于优化损失函数,由于在训练模型中,需要定义一个损失函数来衡量模型的效果,以损失函数的值最小为优化目标学习网络的参数。常常需要根据实际需要,修改或自定义网络模型的损失函数。在异常检测问题中,误报和漏报是降低准确度的两个原因,因为故障具有其特殊的业务意义,在实际生产中,漏报的后果往往比误报严重。如果不使用自定义的损失函数的话,误报和漏报将处于同等重要的地位。
另由于故障的特性,训练数据中异常数据的数量远远小于正常数据的数量,导致异常指标检测漏报的可能性远高于误报。在本实施例中,正常数据的数量占总数据的90%以上,即算法将全部输入都分类为正常数据,也能得到很低的loss值,不修改损失函数直接训练,会出现模型损失低,漏报多的情况。
Figure BDA0002471323400000211
表2预警模型的损失函数优化
从表2中可以看出,若数据和损失函数不进行处理直接训练,模型会极度倾向于将数据分类为正常,效果最差;使用smote算法对负样本进行增强后训练,漏报率和误报率下降,准确率上升;使用smote算法和自定义损失函数训练,漏报率降为0,误报率下降,准确率升高,模型达到最优。
综合以上两点,修改了预设的预警模型的损失函数,将损失分为漏报的损失和误报的损失两部分,并赋予两部分损失不同的权重。
Figure BDA0002471323400000212
其中,Y是实际采集值,f(x)是根据公式计算的值,|y-f(x)|和
Figure BDA0002471323400000213
的插值和一个
Figure BDA0002471323400000217
值进行比对,计算得到函数
Figure BDA0002471323400000214
Figure BDA0002471323400000215
需要选定一个范围后迭代训练,最终根据
Figure BDA0002471323400000216
求和最小值得到最优值。使用该自定义损失函数后,减少了漏报,优化了模型。使用该自定义损失函数后,减少了漏报,优化了模型。
目标故障预警输出模块260根据第一原始故障预警或第二原始故障预警,输出目标业务故障预警。
具体地,本实施例中,目标故障预警输出模块260还包括预警连续性判断模块,用于分析该第一原始故障预警或第二原始故障预警的结果的连续性,若在一定时间内连续出现多次原始故障预警,则发出目标业务故障预警。本实施例中,在连续发出三次原始故障预警时,则判断业务故障,发出目标业务故障预警。目标业务故障预警信息包括系统故障信息以及故障对应的指标数据。
此外,本实施例的基于多指标异动检测的故障预警装置还可以动态刷新预警状态,跟踪判断故障影响的业务、系统、地市范围的变化。当产生预警时同步显示异常指标,为用户排障提供数据依据,可直接生成可编辑的预警信息方便发送微信群,提供对预警信息的操作。
本实施例中,该基于多指标异动检测的故障预警装置通过敏捷数据流平台实现上述相关功能。该敏捷数据流平台分为编排设计平台和任务运行引擎两部分。数据流编排设计平台是一个基于组件的可视化设计平台,该平台将上述各个模块的功能以组件的形式展示。对于上述各模块,可根据具体的应用场景,设置各模块的具体参数,形成多个组件,直接拖拽组件就能构成一个完整的AI预警处理数据流。不同指标数据的故障预警,以及相同指标数据不同AI模型的故障预警,都可以通过配置多个数据流,设置不同的组件参数,提交数据流任务运行引擎,并发在线运行,实时输出结果。
本实施例的基于多指标异动检测的故障预警方法,通过业务故障对应的指标数据是判断单指标类型还是多指标类型,通过单指标预警规则对单指标类型的指标数据进行判断,对多指标数据通过预警模型来判断,能够根据业务关键点和运维痛点,合理筛选建立多指标多维度的预警模型,引入DNN为主体的混合神经元深度网络模型,快速学习判定多指标多维度的非线性数据特征,预判影响用户感知的业务故障,实现了对单一指标的简单故障场景和多指标复杂故障场景的业务故障判定,提高了业务故障判定的准确性。
图3示出了本发明基于多指标异动检测的故障预警设备实施例的结构示意图,本发明具体实施例并不对该基于多指标异动检测的故障预警设备的具体实现做限定。
如图3所示,该基于多指标异动检测的故障预警设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)506、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线508完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它应用服务端等的网元通信。处理器302,用于执行程序310,具体可以执行上述用于基于多指标异动检测的故障预警方法和/或基于前馈神经网络的物联网故障诊断方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机可执行指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。基于多指标异动检测的故障预警设备设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以被处理器302调用使该基于多指标异动检测的故障预警设备执行以下操作:
获取待预警原始业务数据,对所述待预警原始业务数据进行指标抽取得到指标数据;
通过指标异动模型对指标数据进行异常分析,得到异常指标数据;
确定异常指标的类型为单指标类型或多指标类型;
当异常指标数据类型为单指标类型时,通过预设的单指标预警规则对所述异常指标数据进行分析,得到第一原始故障预警;
当异常指标数据类型为多指标类型时,通过预设的预警模型对所述异常指标数据进行分析,输出第二原始故障预警,其中,所述预设的预警模型是预先根据历史指标数据样本训练得到的;
根据第一原始故障预警和/或第二原始故障预警,输出目标业务故障预警。
在一种可选的方式中,在所述通过指标异动模型对指标数据进行异常标记,形成异常指标数据的步骤之前,还包括对所述指标数据进行预处理:
对所述指标数据进行数据分类,将所述指标数据分为周期性数据和非周期性数据;
对所述指标数据进行数据清洗,剔除无效数据;
对所述数据指标进行滤波处理,过滤噪声点;
对所述数据指标进行数据特征构造。
在一种可选的方式中,所述指标异动模型为异动检测算法权重组合,所述异动检测算法权重组合通过使用所述异动检测算法及对应的参数矩阵对所述指标数据进行遍历异动检测得到;
将所述指标数据输入所述异动检测算法权重组合中,得到异常指标数据。
在一种可选的方式中,通过GridSearch的方式使用所述多种异动检测算法和参数对所述指标数据进行遍历异动检测,得到所述异动检测算法权重组合。
在一种可选的方式中,所述预设预警模型为分别带权重的DNN模型、CNN模型及LSTM模型构成的权重混合模型,是预先根据历史业务数据样本对所述权重混合模型训练得到的。
在一种可选的方式中,根据第一原始故障预警和/或第二原始故障预警,得到目标业务故障预警,进一步包括:
分析所述第一原始故障预警和/或第二原始故障预警的预警连续性,根据预警连续性输出目标业务故障预警。
本实施例的基于多指标异动检测的故障预警设备,通过业务故障对应的指标数据是判断单指标类型还是多指标类型,通过单指标预警规则对单指标类型的指标数据进行判断,对多指标数据通过预警模型来判断,能够根据业务关键点和运维痛点,合理筛选建立多指标多维度的预警模型,引入DNN为主体的混合神经元深度网络模型,快速学习判定多指标多维度的非线性数据特征,预判影响用户感知的业务故障,实现了对单一指标的简单故障场景和多指标复杂故障场景的业务故障判定,提高了业务故障判定的准确性。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在基于多指标异动检测的故障预警设备/装置上运行时,使得所述基于多指标异动检测的故障预警设备/装置执行上述任意方法实施例中的基于多指标异动检测的故障预警方法。
可执行指令具体可以用于使得基于多指标异动检测的故障预警设备/装置执行以下操作:
获取待预警原始业务数据,对所述待预警原始业务数据进行指标抽取得到指标数据;
通过指标异动模型对指标数据进行异常分析,得到异常指标数据;
确定异常指标的类型为单指标类型或多指标类型;
当异常指标数据类型为单指标类型时,通过预设的单指标预警规则对所述异常指标数据进行分析,得到第一原始故障预警;
当异常指标数据类型为多指标类型时,通过预设的预警模型对所述异常指标数据进行分析,输出第二原始故障预警,其中,所述预设的预警模型是预先根据历史指标数据样本训练得到的;
根据第一原始故障预警和/或第二原始故障预警,输出目标业务故障预警。
在一种可选的方式中,在所述通过指标异动模型对指标数据进行异常标记,形成异常指标数据的步骤之前,还包括对所述指标数据进行预处理:
对所述指标数据进行数据分类,将所述指标数据分为周期性数据和非周期性数据;
对所述指标数据进行数据清洗,剔除无效数据;
对所述数据指标进行滤波处理,过滤噪声点;
对所述数据指标进行数据特征构造。
在一种可选的方式中,所述指标异动模型为异动检测算法权重组合,所述异动检测算法权重组合通过使用所述异动检测算法及对应的参数矩阵对所述指标数据进行遍历异动检测得到;
将所述指标数据输入所述异动检测算法权重组合中,得到异常指标数据。
在一种可选的方式中,通过GridSearch的方式使用所述多种异动检测算法和参数对所述指标数据进行遍历异动检测,得到所述异动检测算法权重组合。
在一种可选的方式中,所述预设预警模型为分别带权重的DNN模型、CNN模型及LSTM模型构成的权重混合模型,是预先根据历史指标数据样本及对应的业务故障标签对所述权重混合模型训练得到的。
本实施例通过业务故障对应的指标数据是判断单指标类型还是多指标类型,通过单指标预警规则对单指标类型的指标数据进行判断,对多指标数据通过预警模型来判断,能够根据业务关键点和运维痛点,合理筛选建立多指标多维度的预警模型,引入DNN为主体的混合神经元深度网络模型,快速学习判定多指标多维度的非线性数据特征,预判影响用户感知的业务故障,实现了对单一指标的简单故障场景和多指标复杂故障场景的业务故障判定,提高了业务故障判定的准确性。
本发明实施例提供一种基于多指标异动检测的故障预警装置,用于执行上述基于多指标异动检测的故障预警方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使上述基于多指标异动检测的故障预警设备执行上述任意方法实施例中的基于多指标异动检测的故障预警方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的基于多指标异动检测的故障预警方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,本发明所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (9)

1.一种基于多指标异动检测的故障预警方法,其特征在于,所述方法包括:
获取待预警原始业务数据,对所述待预警原始业务数据进行指标抽取得到指标数据;
将所述指标数据输入异动检测算法权重组合中,得到异常指标数据;所述异动检测算法权重组合通过使用异动检测算法及对应的参数矩阵对所述指标数据进行遍历异动检测得到;
确定异常指标的类型为单指标类型或多指标类型;
当异常指标数据类型为单指标类型时,通过预设的单指标预警规则对所述异常指标数据进行分析,得到第一原始故障预警;
当异常指标数据类型为多指标类型时,通过预设的预警模型对所述异常指标数据进行分析,输出第二原始故障预警,其中,所述预设的预警模型是预先根据历史指标数据样本训练得到的;
根据第一原始故障预警和/或第二原始故障预警,输出目标业务故障预警。
2.根据权利要求1所述的方法,其特征在于,在所述将所述指标数据输入异动检测算法权重组合中,得到异常指标数据的步骤之前,还包括对所述指标数据进行预处理:
对所述指标数据进行数据分类,将所述指标数据分为周期性数据和非周期性数据;
对所述指标数据进行数据清洗,剔除无效数据;
对所述数据指标进行滤波处理,过滤噪声点;
对所述数据指标进行数据特征构造。
3.根据权利要求1所述的方法,其特征在于,通过GridSearch的方式使用多种所述异动检测算法和参数矩阵对所述指标数据进行遍历异动检测,得到所述异动检测算法权重组合。
4.根据权利要求1所述的方法,其特征在于,所述预设预警模型为分别带权重的DNN模型、CNN模型及LSTM模型构成的权重混合模型,是预先根据历史指标数据样本及对应的业务故障标签对所述权重混合模型训练得到的。
5.根据权利要求1所述的方法,其特征在于,根据第一原始故障预警和/或第二原始故障预警,得到目标业务故障预警,进一步包括:
分析所述第一原始故障预警和/或第二原始故障预警的预警连续性,根据预警连续性输出目标业务故障预警。
6.一种基于多指标异动检测的故障预警装置,其特征在于,所述装置包括:
指标数据抽取模块,用于获取待预警原始业务数据,对所述待预警原始业务数据进行指标抽取得到指标数据;
异常指标数据确定模块,用于将所述指标数据输入异动检测算法权重组合中,得到异常指标数据;所述异动检测算法权重组合通过使用异动检测算法及对应的参数矩阵对所述指标数据进行遍历异动检测得到;
指标类型确定模块,用于确定异常指标的类型为单指标类型或多指标类型;
单指标预警模块,用于当异常指标数据类型为单指标类型时,通过预设的单指标预警规则对所述异常指标数据进行分析,得到第一原始故障预警;
多指标预警模块,用于当异常指标数据类型为多指标类型时,通过预设的预警模型对所述异常指标数据进行分析,输出第二原始故障预警,其中,所述预设的预警模型是预先根据历史指标数据样本训练得到的;
目标故障预警输出模块,用于根据第一原始故障预警和/或第二原始故障预警,输出目标业务故障预警。
7.根据权利要求6所述的装置,其特征在于,所述预设预警模型为分别带权重的DNN模型、CNN模型及LSTM模型构成的权重混合模型,是预先根据历史指标数据样本及对应的业务故障标签对所述权重混合模型训练得到的。
8.一种基于多指标异动检测的故障预警设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5任意一项所述的方法的操作。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在基于多指标异动检测的故障预警设备上运行时,使得基于多指标异动检测的故障预警设备执行如权利要求1-5任意一项所述的基于多指标异动检测的故障预警方法的操作。
CN202010349192.2A 2020-04-28 2020-04-28 故障预警方法、预警装置、设备及计算机介质 Active CN113572625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010349192.2A CN113572625B (zh) 2020-04-28 2020-04-28 故障预警方法、预警装置、设备及计算机介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010349192.2A CN113572625B (zh) 2020-04-28 2020-04-28 故障预警方法、预警装置、设备及计算机介质

Publications (2)

Publication Number Publication Date
CN113572625A CN113572625A (zh) 2021-10-29
CN113572625B true CN113572625B (zh) 2023-04-28

Family

ID=78157998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010349192.2A Active CN113572625B (zh) 2020-04-28 2020-04-28 故障预警方法、预警装置、设备及计算机介质

Country Status (1)

Country Link
CN (1) CN113572625B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114024830A (zh) * 2021-11-05 2022-02-08 哈尔滨理工大学 一种基于Grubbs的警报关联方法
CN114528190B (zh) * 2022-04-21 2022-07-01 云账户技术(天津)有限公司 单指标异常的检测方法、装置、电子设备及可读存储介质
CN115213907A (zh) * 2022-08-05 2022-10-21 上海控创信息技术股份有限公司 基于边缘计算的运维机器人作业方法及系统
CN115817178A (zh) * 2022-11-14 2023-03-21 宁德时代新能源科技股份有限公司 故障预警方法、装置、电池、车辆及存储介质
JP7498874B1 (ja) 2023-01-24 2024-06-12 楽天グループ株式会社 異常判定システム、異常判定方法、及びプログラム
CN116414097B (zh) * 2023-05-15 2023-09-29 广东思创智联科技股份有限公司 基于工业设备数据的告警管理方法及系统
CN117369392B (zh) * 2023-11-17 2024-04-16 岳阳长炼机电工程技术有限公司 一种基于多参数逻辑关系的设备故障智能预警方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109150564A (zh) * 2017-06-19 2019-01-04 中国移动通信集团广东有限公司 一种用于小区故障告警的预测方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073497B (zh) * 2018-01-29 2021-02-12 上海洞识信息科技有限公司 一种基于数据中心数据采集平台的多指标异动分析方法
CN109896384B (zh) * 2019-02-26 2021-09-28 北京市特种设备检测中心 基于大数据分析的曳引电梯健康状态特征参数提取方法
CN110110905A (zh) * 2019-04-17 2019-08-09 华电国际电力股份有限公司十里泉发电厂 一种基于cnn的电力设备故障判断预警方法,终端及可读存储介质
CN110275814A (zh) * 2019-06-28 2019-09-24 深圳前海微众银行股份有限公司 一种业务系统的监控方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109150564A (zh) * 2017-06-19 2019-01-04 中国移动通信集团广东有限公司 一种用于小区故障告警的预测方法及装置

Also Published As

Publication number Publication date
CN113572625A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN113572625B (zh) 故障预警方法、预警装置、设备及计算机介质
US10606862B2 (en) Method and apparatus for data processing in data modeling
CN113887616B (zh) 一种epg连接数的实时异常检测方法
CN110717535B (zh) 一种基于数据分析处理系统的自动建模方法及系统
CN113360358B (zh) 一种自适应计算it智能运维健康指数的方法及系统
CN110097037A (zh) 智能监测方法、装置、存储介质及电子设备
CN109150564A (zh) 一种用于小区故障告警的预测方法及装置
CN115454778B (zh) 大规模云网络环境下的时序指标异常智能监控系统
CN113805548A (zh) 一种机械加工智能控制系统、方法及计算机可读介质
CN115760484A (zh) 一种配电台区隐患辨识能力提升方法、装置、系统及存储介质
CN116955092B (zh) 基于数据分析的多媒体系统监控方法及系统
CN112532643B (zh) 基于深度学习的流量异常检测方法、系统、终端及介质
CN116914917A (zh) 一种基于大数据的配电柜运行状态监测管理系统
CN112415331A (zh) 基于多源故障信息的电网二次系统故障诊断方法
CN114118507A (zh) 一种基于多维信息融合的风险评估预警方法和装置
CN115237717A (zh) 一种微服务异常检测方法和系统
CN116010485A (zh) 一种动态周期时序的无监督异常检测方法
CN114647558A (zh) 一种日志异常检测的方法和装置
CN114169998A (zh) 一种金融大数据分析与挖掘算法
CN116365519B (zh) 一种电力负荷预测方法、系统、存储介质及设备
CN114138601A (zh) 一种业务告警方法、装置、设备及存储介质
CN117216713A (zh) 故障定界方法、装置、电子设备和存储介质
CN115756919B (zh) 一种面向多维数据的根因定位方法及系统
CN117113233A (zh) 层级能源结构场景构建方法及能耗异常链路追溯方法
CN111680572B (zh) 一种电网运行场景动态判定方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant