CN113094284A - 应用故障检测方法及装置 - Google Patents

应用故障检测方法及装置 Download PDF

Info

Publication number
CN113094284A
CN113094284A CN202110480433.1A CN202110480433A CN113094284A CN 113094284 A CN113094284 A CN 113094284A CN 202110480433 A CN202110480433 A CN 202110480433A CN 113094284 A CN113094284 A CN 113094284A
Authority
CN
China
Prior art keywords
index data
node
abnormal
application
fault detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110480433.1A
Other languages
English (en)
Inventor
程鹏
任政
郑杰
郑凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110480433.1A priority Critical patent/CN113094284A/zh
Publication of CN113094284A publication Critical patent/CN113094284A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/366Software debugging using diagnostics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Computer Hardware Design (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种应用故障检测方法及装置,可用于金融领域或其他领域,所述故障检测方法包括:获取目标金融应用的指标数据集,该指标数据集包括:所述目标金融应用中的各个节点的指标数据;根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据;若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。本申请能够提高应用故障检测的准确性,进而能够提高应用运行的安全性。

Description

应用故障检测方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种应用故障检测方法及装置。
背景技术
在互联网金融时代,各大银行业务量呈爆发性增长,业务模式更新迭代频繁。云计算以其弹性计算、随用随取和快速迭代等新特性完美地契合了新形势下金融业IT系统的要求,云计算和分布式等新技术体系一同支撑起了互联网金融业务的快速发展。但是云计算体系下的IT环境和故障处理更加复杂,传统基于固定阈值的应用故障检测方法越来越难满足复杂场景的需求。
传统基于固定阈值的应用故障检测方法,通过判断实时采集的指标数据是否超出人为设定的固定阈值,确定应用是否故障;对于复杂应用来说,往往需要针对不同的指标分别设定各自的固定阈值,一方面,固定阈值靠人为评估有较大误差,另一方面,难以根据不同的时间和场景自适应调整固定阈值,容易导致大量的误报和漏报,给生产运维带来了较大的挑战。
发明内容
针对现有技术中的问题,本申请提出了一种应用故障检测方法及装置,能够提高应用故障检测的准确性,进而能够提高应用运行的安全性。
为了解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种应用故障检测方法,包括:
获取目标金融应用的指标数据集,该指标数据集包括:所述目标金融应用中的各个节点的指标数据;
根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据;
若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
进一步地,所述根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据,包括:
若所述指标数据集中存在平稳类型的第一指标数据,则对该第一指标数据进行归一化处理;
根据归一化处理后的第一指标数据的标准差,确定各个第一指标数据的偏离度;
根据动态标准差阈值和各个第一指标数据的偏离度,确定所述指标数据集中是否存在异常指标数据。
进一步地,所述若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测,包括:
若存在偏离度大于所述动态标准差阈值的第一指标数据,则将该第一指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
进一步地,所述根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据,包括:
若所述指标数据集中存在突刺类型的第二指标数据,则应用秩和检验法以及箱型图算法,检测所述第二指标数据;
根据显著水平阈值和各个第二指标数据的检测结果,确定所述指标数据集中是否存在异常指标数据。
进一步地,所述若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测,包括:
若存在检测结果大于所述显著水平阈值的第二指标数据,则将该第二指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
进一步地,所述根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据,包括:
若所述指标数据集中存在波动类型的第三指标数据,则对该第三指标数据进行归一化处理;
应用滑动窗口和第三指标数据,得到波动值;
应用时间序列异常检测算法和波动值进行异常检测;
根据所述异常检测的结果,确定所述指标数据集中是否存在异常指标数据。
进一步地,所述若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测,包括:
若存在异常检测的结果为1的第三指标数据,则将该第三指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
进一步地,在所述获取目标金融应用的指标数据集,该指标数据集包括:所述目标金融应用中的各个节点的指标数据之后,还包括:
应用预设的时间序列预测模型,得到叶子节点对应的指标数据的预测值,所述节点包括:叶子节点和非叶子节点;
根据所述叶子节点的指标数据和预测值之间的偏离度,得到该叶子节点的健康度;
对所述非叶子节点对应的各个子节点的健康度进行加权求和,得到该非叶子节点的健康度;
根据健康度阈值和各个节点的健康度,确定所述目标金融应用中是否存在异常节点,以完成所述目标金融应用的故障检测。
第二方面,本申请提供一种应用故障检测装置,包括:
获取模块,用于获取目标金融应用的指标数据集,该指标数据集包括:所述目标金融应用中的各个节点的指标数据;
判别模块,用于根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据;
第一故障检测模块,用于若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
进一步地,所述的应用故障检测装置,还包括:
应用模块,用于应用预设的时间序列预测模型,得到叶子节点对应的指标数据的预测值,所述节点包括:叶子节点和非叶子节点;
健康度确定模块,用于根据所述叶子节点的指标数据和预测值之间的偏离度,得到该叶子节点的健康度;
加权求和模块,用于对所述非叶子节点对应的各个子节点的健康度进行加权求和,得到该非叶子节点的健康度;
第二故障检测模块,用于根据健康度阈值和各个节点的健康度,确定所述目标金融应用中是否存在异常节点,以完成所述目标金融应用的故障检测。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的应用故障检测方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述的应用故障检测方法。
由上述技术方案可知,本申请提供一种应用故障检测方法及装置。其中,该方法包括:获取目标金融应用的指标数据集,该指标数据集包括:所述目标金融应用中的各个节点的指标数据;根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据,若存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测,能够提高应用故障检测的准确性,进而能够提高应用运行的安全性;具体地,可以自动实时获取指标数据,并基于这些指标数据进行故障检测,可自适应不同时间段的指标数据变化;基于历史数据学习训练得到的时间序列模型,不依赖于专家经验,故障检测精度高并且误报少;同时,适用于多种应用场景,具有良好的可移植性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中应用故障检测方法的第一流程示意图;
图2是本申请实施例中应用故障检测方法的第二流程示意图;
图3是本申请实施例中应用故障检测方法的第三流程示意图;
图4是本申请实施例中应用故障检测方法的第四流程示意图;
图5是本申请实施例中应用故障检测装置的结构示意图;
图6是本申请应用实例中应用故障检测装置的结构示意图;
图7为本申请实施例的电子设备的系统构成示意框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前主要根据人为设定的固定阈值和指标数据对应用进行故障检测,若当前的指标数据超出设定的固定阈值,则确定应用故障,这种方式难以根据不同的时间和场景自适应调整固定阈值,且阈值的设定依赖于专家知识,容易造成故障的误报和漏报,可移植性差。
基于此,为了提高应用故障检测的准确性,进而提高应用运行的安全性,本申请实施例提供一种应用故障检测装置,该装置可以是一服务器或客户端设备,所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备和智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表和智能手环等。
在实际应用中,进行应用故障检测的部分可以在如上述内容所述的服务器侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
需要说明的是,本申请公开的应用故障检测方法及系统可用于金融技术领域,也可用于除金融技术领域之外的任意领域,本申请公开的应用故障检测方法及系统的应用领域不做限定。
具体通过下述各个实施例进行说明。
为了提高应用故障检测的准确性,进而提高应用运行的安全性,本实施例提供一种执行主体是应用故障检测装置的应用故障检测方法,该应用故障检测装置包括但不限于服务器,如图1所示,该方法具体包含有如下内容:
步骤100:获取目标金融应用的指标数据集,该指标数据集包括:所述目标金融应用中的各个节点的指标数据。
具体地,可以定时获取目标金融应用的指标数据集,该指标数据集包括:所述目标金融应用中的各个节点的指标数据;所述目标金融应用可以是一种分级分布式应用,所述节点可以是服务器,所述目标金融应用可以包含有多级节点,子节点可以是与节点连接的下一级节点,叶子节点不存在子节点。所述指标数据可以包含有:预设时间段内的任务成功率、响应时间平均值和交易量中的至少一个,任务成功率可以是交易成功率,所述预设时间段可根据实际需要进行设置,本申请对此不作限制。
步骤200:根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据。
步骤300:若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
其中,所述指标数据的数据类型包括:平稳类型、突刺类型和波动类型。
具体地,对于指标数据集中的任一指标数据x,可以直接应用检验判定方法判断该指标数据x是否为平稳类型,若否,则可以从该指标数据x对应的预设时间段内的指标信息(例如,任务成功次数、响应时间和交易量)中剔除与指标信息平均值之间的差值大于差值阈值的指标信息,将剩余的指标信息的平均值作为筛选后的指标数据,应用筛选后的指标数据和检验判定方法,判断指标数据x是否为突刺类型,若否,则应用差分算法,判断指标数据x是否为波动类型。
为了进一步提高故障检测的准确性,参见图2,在本申请一个实施例中,步骤200包括:
步骤211:若所述指标数据集中存在平稳类型的第一指标数据,则对该第一指标数据进行归一化处理。
可以理解的是,第一指标数据为平稳类型的指标数据。
步骤212:根据归一化处理后的第一指标数据的标准差,确定各个第一指标数据的偏离度。
具体地,可以将每个第一指标数据与标准差相差的绝对值所占标准差的比重作为该第一指标数据的偏离度。
步骤213:根据动态标准差阈值和各个第一指标数据的偏离度,确定所述指标数据集中是否存在异常指标数据。
其中,若包含有多种第一指标数据,如平稳类型的任务成功率和交易量等,则应用每种第一指标数据进行上述步骤211至步骤213,即分别对各种第一指标数据进行归一化处理,并得到各种第一指标数据各自对应的标准差,应用各种第一指标数据各自对应的标准差,确定各个第一指标数据的偏离度。
为了进一步提高异常节点确定的可靠性,在步骤200之后,还可以包含有:
若存在偏离度大于所述动态标准差阈值的第一指标数据,则将该第一指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
为了进一步提高故障检测的准确性,参见图3,在本申请一个实施例中,步骤200包括:
步骤221:若所述指标数据集中存在突刺类型的第二指标数据,则应用秩和检验法以及箱型图算法,检测所述第二指标数据。
可以理解的是,第二指标数据为突刺类型的指标数据。
步骤222:根据显著水平阈值和各个第二指标数据的检测结果,确定所述指标数据集中是否存在异常指标数据。
其中,若包含有多种第二指标数据,则应用每种第二指标数据进行上述步骤221和步骤222,如包含有突刺类型的任务成功率和交易量,则应用突刺类型的任务成功率进行上述步骤221和步骤222,应用突刺类型的交易量进行上述步骤221和步骤222。
为了进一步提高异常节点确定的可靠性,在步骤200之后,还可以包含有:
若存在检测结果大于所述显著水平阈值的第二指标数据,则将该第二指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
为了进一步提高故障检测的准确性,参见图4,在本申请一个实施例中,步骤200包括:
步骤231:若所述指标数据集中存在波动类型的第三指标数据,则对该第三指标数据进行归一化处理。
可以理解的是,第三指标数据为波动类型的指标数据。
步骤232:应用滑动窗口和第三指标数据,得到波动值。
具体地,滑动窗口可以表示时间段,每个时间段对应的时间范围可以是一天或者1分钟等,波动值就是相对上一时间段相同位置处的数据变化,可以理解为环比。
举例来说,所有波动类型的指标数据组成的指标数据曲线对应多个相邻的时间段t1、t2、t3……tn,可以计算得到t2和t1中相同位置处的指标数据之间的差值,t3和t2中相同位置处的指标数据之间的差值……,将各个差值均作为波动值。
步骤233:应用时间序列异常检测算法和波动值进行异常检测。
步骤234:根据所述异常检测的结果,确定所述指标数据集中是否存在异常指标数据。
其中,若包含有多种第三指标数据,如波动类型的任务成功率和交易量等,则每种第三指标数据均可以用于执行上述步骤231至步骤234。
为了进一步提高异常节点确定的可靠性,在步骤200之后,还可以包含有:
若存在异常检测的结果为1的第三指标数据,则将该第三指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
为了进一步提高故障检测的准确性和智能化程度,在本申请一个实施例中,在步骤100之后还包括:
步骤400:应用预设的时间序列预测模型,得到叶子节点对应的指标数据的预测值,所述节点包括:叶子节点和非叶子节点。
具体地,叶子节点可以是所述目标金融应用中没有子节点的节点,非叶子节点为存在对应的子节点的节点;各个节点的权重可根据实现需要进行设置。可以应用prophet算法预先训练得到所述时间序列预测模型。
步骤500:根据所述叶子节点的指标数据和预测值之间的偏离度,得到该叶子节点的健康度。
具体地,若同一节点包含有多类指标数据,如任务成功率和响应时间平均值等,则可以对同一节点的各类指标数据的偏离度进行加权求和,将加权求和结果作为该节点的健康度,各个指标数据的权重可根据实际需要进行设置,即可以加权和计算得到节点的健康度。若同一节点包含有唯一的指标数据,则根据该指标数据的偏离度,得到该指标数据对应的节点的健康度。举例来说,可以预先设定偏离度在5%以下,健康度为100分,偏离度在5%至10%范围内,健康度为90分,偏离度在10%至15%范围内,健康度为80分,偏离度在15%至20%范围内,健康度为60分,偏离度在20%至25%范围内,健康度为50分,偏离度25%至35%范围内,健康度为40分,偏离度在35%至50%范围内,健康度为30分,其他健康度为0分。
步骤600:对所述非叶子节点对应的各个子节点的健康度进行加权求和,得到该非叶子节点的健康度。
步骤700:根据健康度阈值和各个节点的健康度,确定所述目标金融应用中是否存在异常节点,以完成所述目标金融应用的故障检测。
具体地,若存在健康度低于健康度阈值的节点,则将该节点作为异常节点。
为了在保证应用故障检测的可靠性的基础上,提高故障检测的效率,在步骤200之后,还可以包含有:
步骤301:若所述指标数据集中存在异常指标数据,则将该异常指标数据对应的节点作为异常节点,将该异常节点的健康度设为0;将异常节点之外的节点作为待检测节点。
步骤401:应用预设的时间序列预测模型,得到待检测叶子节点的指标数据的预测值。
具体地,待检测叶子节点为属于待检测节点和叶子节点的节点。
步骤501:根据待检测叶子节点的指标数据及其预测值之间的偏离度,得到待检测叶子节点的健康度。
步骤601:若存在待检测节点为非叶子节点,则对该待检测节点对应的各个子节点的健康度进行加权求和,得到该待检测节点的健康度。
步骤701:若存在健康度小于健康度阈值的待检测节点,则将该待检测节点和异常节点的位置信息等输出显示,便于接下来故障根因分析。
为了进一步说明本方案,本申请提供一种应用故障检测方法的应用实例,在本应用实例中,所述应用故障检测方法包括:
步骤1):指标数据选取。从云计算角度来说,金融应用是由多个节点构成的,可以从每个节点统计得到任务成功率、响应时间平均值和交易量等指标数据,根据这些指标数据确定各个节点的健康度。本应用实例涉及的指标数据可以是以1分钟为维度的统计值。
步骤2):指标数据的类型判定。指标数据的类型可以包括:平稳类型、突刺类型和波动类型,这三种类型的指标数据之外的指标数据不做检测或者检测精度较低。
可以直接采用单根检验判定法(统计方法)从指标数据中提取平稳类型的指标数据;突刺类型的指标数据在剔除少部分数据后可以应用单根检验判定法判定是否平稳;波动类型的指标数据呈周期变化,如按小时、天、周、月、年的周期变化。
步骤3):指标数据检测。平稳类型的指标数据在数据归一化后按照标准差计算偏离度,即计算得到平稳类型的指标数据的标准差,确定各平稳类型的指标数据与标准差之间的偏离度;将偏离度满足动态标准差阈值的指标数据标记为异常。突刺类型的指标数据不做归一化,应用秩和检验算法以及箱型图算法对突刺类型的指标数据进行集成检验,将检验结果大于假设检验显著性水平即上述显著水平阈值的指标数据标记为异常。波动类型的指标数据在归一化后按照滑窗计算波动值,并基于时间序列异常检测算法(SeasonalHybrid ESD,简称S-H-ESD)对波动值进行异常检测,将检测值为1对应的指标数据标记为异常。
步骤4):节点健康度评价。应用时间序列预测算法prophet对各节点的指标数据进行预测,计算节点的各指标数据与其对应的预测值之间的偏离度,指标数据与预测值一一对应,偏离度越大则健康度越差;将步骤3中检测为异常的指标数据对应的节点直接标识为不健康,节点颜色标记为红色。
步骤5):应用健康度评价。基于两个月的历史数据,利用多项式加权和拟合各节点的权重(也可人为根据节点的重要性设定各个节点的权重,节点的健康度等于该节点对应的各子节点的健康度加权和,可以设置健康度阈值,优选为80%,如果健康度低于健康度阈值,则该健康度对应的节点标识为红色表示节点异常。
从软件层面来说,为了提高应用故障检测的准确性,进而提高应用运行的安全性,本申请提供一种用于实现所述应用故障检测方法中全部或部分内容的应用故障检测装置的实施例,参见图5,所述应用故障检测装置具体包含有如下内容:
获取模块10,用于获取目标金融应用的指标数据集,该指标数据集包括:所述目标金融应用中的各个节点的指标数据。
判别模块20,用于根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据。
第一故障检测模块30,用于若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
在本申请一个实施例中,所述的应用故障检测装置,还包括:
应用模块,用于应用预设的时间序列预测模型,得到叶子节点对应的指标数据的预测值,所述节点包括:叶子节点和非叶子节点。
健康度确定模块,用于根据所述叶子节点的指标数据和预测值之间的偏离度,得到该叶子节点的健康度。
加权求和模块,用于对所述非叶子节点对应的各个子节点的健康度进行加权求和,得到该非叶子节点的健康度。
第二故障检测模块,用于根据健康度阈值和各个节点的健康度,确定所述目标金融应用中是否存在异常节点,以完成所述目标金融应用的故障检测。
本说明书提供的应用故障检测装置的实施例具体可以用于执行上述应用故障检测方法的实施例的处理流程,其功能在此不再赘述,可以参照上述应用故障检测方法实施例的详细描述。
为了进一步说明本方案,本申请提供一种应用故障检测装置的应用实例,在本应用实例中,参见图6,所述应用故障检测装置包括:数据收集模块、数据存储模块、离线建模分析模块、在线实时故障检测模块、数据存储模块和平台展示模块,具体描述如下:
数据收集模块01和数据存储模块02使用SpringBoot工程开发,制作成镜像部署在一个K8s集群实时运行,用于从Kafka分布式日志系统中实时获取指标数据,经过数据清洗和预处理后,将指标数据存入ElasticSearch搜索服务器中。
离线建模分析模块03,主要用于基于机器学习算法,利用一个月的存量数据进行模型的训练和权重的训练,构建动态的智能故障检测模型即上述时间序列模型。
在线实时故障检测模块04,用于每隔1分钟自动发起检测,从ElasticSearch搜索服务器中获取模型训练的训练数据(该数据为一个月数据,包括指标数据),将获取的数据经过预处理和特征处理后传到模型进行预测,同时从数据库中获取各特征值在离线训练时训练好的权重值,然后计算各特征值的加权和,利用加权和计算各父节点的健康度,并存入ElasticSearch搜索服务器中。
数据存储模块02,用于实现元数据、各节点健康度和各指标数据的存储,元数据保留一个月,各节点健康度和指标数据保留一周。
平台展示模块05,主要用于当应用进行前端展示时,在选取好查看的时间段(默认展示最新一条报警所在时间的值),后台代码实时从ElasticSearch搜索服务器获取应用选择的时间段内的元数据和预测值以线状图的形式展现,红色表示故障节点,绿色表示健康节点,并且用健康度标识各节点。
由上述描述可知,本申请提供的应用故障检测方法及装置,能够提高应用故障检测的准确性,进而能够提高应用运行的安全性;具体地,可以自动实时获取指标数据,并基于这些指标数据进行故障检测,可自适应不同时间段的指标数据变化;基于历史数据学习训练得到的时间序列模型,不依赖于专家经验,故障检测精度高并且误报少;同时,适用于多种应用场景,具有良好的可移植性。
从硬件层面来说,为了提高应用故障检测的准确性,进而提高应用运行的安全性,本申请提供一种用于实现所述应用故障检测方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现所述应用故障检测装置以及用户终端等相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述应用故障检测方法的实施例及用于实现所述应用故障检测装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图7为本申请实施例的电子设备9600的系统构成的示意框图。如图7所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图7是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在本申请一个或多个实施例中,应用故障检测功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤100:获取目标金融应用的指标数据集,该指标数据集包括:所述目标金融应用中的各个节点的指标数据。
步骤200:根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据。
步骤300:若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
从上述描述可知,本申请的实施例提供的电子设备,能够提高应用故障检测的准确性,进而提高应用运行的安全性。
在另一个实施方式中,应用故障检测装置可以与中央处理器9100分开配置,例如可以将应用故障检测装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现应用故障检测功能。
如图7所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图7中所示的所有部件;此外,电子设备9600还可以包括图7中没有示出的部件,可以参考现有技术。
如图7所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
上述描述可知,本申请的实施例提供的电子设备,能够提高应用故障检测的准确性,进而提高应用运行的安全性。
本申请的实施例还提供能够实现上述实施例中的应用故障检测方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的应用故障检测方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:获取目标金融应用的指标数据集,该指标数据集包括:所述目标金融应用中的各个节点的指标数据。
步骤200:根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据。
步骤300:若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够提高应用故障检测的准确性,进而提高应用运行的安全性。
本申请中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种应用故障检测方法,其特征在于,包括:
获取目标金融应用的指标数据集,该指标数据集包括:所述目标金融应用中的各个节点的指标数据;
根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据;
若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
2.根据权利要求1所述的应用故障检测方法,其特征在于,所述根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据,包括:
若所述指标数据集中存在平稳类型的第一指标数据,则对该第一指标数据进行归一化处理;
根据归一化处理后的第一指标数据的标准差,确定各个第一指标数据的偏离度;
根据动态标准差阈值和各个第一指标数据的偏离度,确定所述指标数据集中是否存在异常指标数据。
3.根据权利要求2所述的应用故障检测方法,其特征在于,所述若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测,包括:
若存在偏离度大于所述动态标准差阈值的第一指标数据,则将该第一指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
4.根据权利要求1所述的应用故障检测方法,其特征在于,所述根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据,包括:
若所述指标数据集中存在突刺类型的第二指标数据,则应用秩和检验法以及箱型图算法,检测所述第二指标数据;
根据显著水平阈值和各个第二指标数据的检测结果,确定所述指标数据集中是否存在异常指标数据。
5.根据权利要求4所述的应用故障检测方法,其特征在于,所述若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测,包括:
若存在检测结果大于所述显著水平阈值的第二指标数据,则将该第二指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
6.根据权利要求1所述的应用故障检测方法,其特征在于,所述根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据,包括:
若所述指标数据集中存在波动类型的第三指标数据,则对该第三指标数据进行归一化处理;
应用滑动窗口和第三指标数据,得到波动值;
应用时间序列异常检测算法和波动值进行异常检测;
根据所述异常检测的结果,确定所述指标数据集中是否存在异常指标数据。
7.根据权利要求6所述的应用故障检测方法,其特征在于,所述若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测,包括:
若存在异常检测的结果为1的第三指标数据,则将该第三指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
8.根据权利要求1所述的应用故障检测方法,其特征在于,在所述获取目标金融应用的指标数据集,该指标数据集包括:所述目标金融应用中的各个节点的指标数据之后,还包括:
应用预设的时间序列预测模型,得到叶子节点对应的指标数据的预测值,所述节点包括:叶子节点和非叶子节点;
根据所述叶子节点的指标数据和预测值之间的偏离度,得到该叶子节点的健康度;
对所述非叶子节点对应的各个子节点的健康度进行加权求和,得到该非叶子节点的健康度;
根据健康度阈值和各个节点的健康度,确定所述目标金融应用中是否存在异常节点,以完成所述目标金融应用的故障检测。
9.一种应用故障检测装置,其特征在于,包括:
获取模块,用于获取目标金融应用的指标数据集,该指标数据集包括:所述目标金融应用中的各个节点的指标数据;
判别模块,用于根据各个节点的指标数据、指标数据的数据类型和预设的判别方法,确定所述指标数据集中是否存在异常指标数据;
第一故障检测模块,用于若所述指标数据集中存在异常指标数据,则将所述异常指标数据对应的节点作为异常节点,以完成所述目标金融应用的故障检测。
10.根据权利要求9所述的应用故障检测装置,其特征在于,还包括:
应用模块,用于应用预设的时间序列预测模型,得到叶子节点对应的指标数据的预测值,所述节点包括:叶子节点和非叶子节点;
健康度确定模块,用于根据所述叶子节点的指标数据和预测值之间的偏离度,得到该叶子节点的健康度;
加权求和模块,用于对所述非叶子节点对应的各个子节点的健康度进行加权求和,得到该非叶子节点的健康度;
第二故障检测模块,用于根据健康度阈值和各个节点的健康度,确定所述目标金融应用中是否存在异常节点,以完成所述目标金融应用的故障检测。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任一项所述的应用故障检测方法。
12.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1至8任一项所述的应用故障检测方法。
CN202110480433.1A 2021-04-30 2021-04-30 应用故障检测方法及装置 Pending CN113094284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110480433.1A CN113094284A (zh) 2021-04-30 2021-04-30 应用故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110480433.1A CN113094284A (zh) 2021-04-30 2021-04-30 应用故障检测方法及装置

Publications (1)

Publication Number Publication Date
CN113094284A true CN113094284A (zh) 2021-07-09

Family

ID=76681202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110480433.1A Pending CN113094284A (zh) 2021-04-30 2021-04-30 应用故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN113094284A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115086156A (zh) * 2022-07-22 2022-09-20 平安银行股份有限公司 存储区域网络中异常应用的定位方法
WO2023094916A1 (en) * 2021-11-23 2023-06-01 International Business Machines Corporation Identifying persistent anomalies for failure prediction
CN117891857A (zh) * 2024-03-13 2024-04-16 广东工业大学 基于大数据的数据挖掘方法及系统
CN118467232A (zh) * 2024-07-12 2024-08-09 宁波银行股份有限公司 一种微服务故障定位方法及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111092757A (zh) * 2019-12-06 2020-05-01 网宿科技股份有限公司 一种异常数据的检测方法、系统及设备
CN111767202A (zh) * 2020-07-08 2020-10-13 中国工商银行股份有限公司 异常检测方法、装置、电子设备和介质
CN112084056A (zh) * 2020-08-25 2020-12-15 腾讯科技(深圳)有限公司 异常检测方法、装置、设备及存储介质
CN112114986A (zh) * 2019-06-20 2020-12-22 腾讯科技(深圳)有限公司 数据异常识别方法、装置、服务器和存储介质
CN112329847A (zh) * 2020-11-03 2021-02-05 北京神州泰岳软件股份有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112346936A (zh) * 2020-11-27 2021-02-09 中国工商银行股份有限公司 应用故障根因定位方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112114986A (zh) * 2019-06-20 2020-12-22 腾讯科技(深圳)有限公司 数据异常识别方法、装置、服务器和存储介质
CN111092757A (zh) * 2019-12-06 2020-05-01 网宿科技股份有限公司 一种异常数据的检测方法、系统及设备
CN111767202A (zh) * 2020-07-08 2020-10-13 中国工商银行股份有限公司 异常检测方法、装置、电子设备和介质
CN112084056A (zh) * 2020-08-25 2020-12-15 腾讯科技(深圳)有限公司 异常检测方法、装置、设备及存储介质
CN112329847A (zh) * 2020-11-03 2021-02-05 北京神州泰岳软件股份有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112346936A (zh) * 2020-11-27 2021-02-09 中国工商银行股份有限公司 应用故障根因定位方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023094916A1 (en) * 2021-11-23 2023-06-01 International Business Machines Corporation Identifying persistent anomalies for failure prediction
CN115086156A (zh) * 2022-07-22 2022-09-20 平安银行股份有限公司 存储区域网络中异常应用的定位方法
CN115086156B (zh) * 2022-07-22 2022-10-25 平安银行股份有限公司 存储区域网络中异常应用的定位方法
CN117891857A (zh) * 2024-03-13 2024-04-16 广东工业大学 基于大数据的数据挖掘方法及系统
CN117891857B (zh) * 2024-03-13 2024-05-24 广东工业大学 基于大数据的数据挖掘方法及系统
CN118467232A (zh) * 2024-07-12 2024-08-09 宁波银行股份有限公司 一种微服务故障定位方法及电子设备

Similar Documents

Publication Publication Date Title
CN113094284A (zh) 应用故障检测方法及装置
US20170357910A1 (en) System for iteratively training an artificial intelligence using cloud-based metrics
CN112346936A (zh) 应用故障根因定位方法及系统
CN111861569A (zh) 产品信息推荐方法及装置
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
US20190139063A1 (en) Methodology of analyzing incidence and behavior of customer personas among users of digital environments
CN110070076B (zh) 用于选取训练用样本的方法和装置
CN110286938B (zh) 用于输出针对用户的评价信息的方法和装置
CN111768305A (zh) 反洗钱识别方法及装置
US20220222688A1 (en) Methodology of analyzing consumer intent from user interaction with digital environments
CN115082920A (zh) 深度学习模型的训练方法、图像处理方法和装置
CN111815169A (zh) 业务审批参数配置方法及装置
CN112150214A (zh) 一种数据预测方法、装置以及计算机可读存储介质
CN110263869A (zh) 一种Spark任务的时长预测方法及装置
CN112101231A (zh) 学习行为的监控方法、终端、小程序以及服务器
CN114245185B (zh) 视频推荐方法、模型训练方法、装置、电子设备及介质
CN111352841A (zh) 金融交易软件的质量检测方法及装置
CN111046156B (zh) 奖励数据的确定方法、装置和服务器
CN113077251A (zh) 一种预付费交易场景下的异常行为监测方法及装置
EP3200135A1 (en) Method and system for real-time human resource activity impact assessment and real-time improvement
CN116435995A (zh) 时间序列的处理方法、计算机可读存储介质和电子设备
CN114971240A (zh) 一种阅读行为风险评估处理方法及装置
CN113742593A (zh) 用于推送信息的方法和装置
CN113782217A (zh) 人体健康状况分级方法及装置
CN112764957A (zh) 应用故障定界方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination