CN112801316A - 基于多指标数据的故障定位方法、系统设备及存储介质 - Google Patents

基于多指标数据的故障定位方法、系统设备及存储介质 Download PDF

Info

Publication number
CN112801316A
CN112801316A CN202110120532.9A CN202110120532A CN112801316A CN 112801316 A CN112801316 A CN 112801316A CN 202110120532 A CN202110120532 A CN 202110120532A CN 112801316 A CN112801316 A CN 112801316A
Authority
CN
China
Prior art keywords
data
index
indexes
health degree
refinement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110120532.9A
Other languages
English (en)
Inventor
叶鹏
王峰磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Data Center of China Life Insurance Co Ltd
Original Assignee
Shanghai Data Center of China Life Insurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Data Center of China Life Insurance Co Ltd filed Critical Shanghai Data Center of China Life Insurance Co Ltd
Priority to CN202110120532.9A priority Critical patent/CN112801316A/zh
Publication of CN112801316A publication Critical patent/CN112801316A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Abstract

本发明涉及一种基于多指标数据的故障定位方法、系统设备及存储介质,所述方法包括以下步骤:S1:采集待检测系统的指标数据;S2:将采集到的指标数据统一到同一粒度下;S3:提取每个指标数据对应的细化指标,并对细化指标进行分层聚合;S4:对细化指标进行异常检测,根据细化指标的历史数据进行算法模型训练,根据算法模型对实时数据进行预测,获取各细化指标的健康度,根据各细化指标的健康度获取各层级的健康度,并根据各层级的健康度获取系统的健康度;S5:根据各细化指标、各层级、系统的健康度数据,对故障进行定位。与现有技术相比,本发明提高对故障定位的准确性和效率,提高故障识别的自动化程度,有效降低人工成本。

Description

基于多指标数据的故障定位方法、系统设备及存储介质
技术领域
本发明涉及故障定位领域,尤其是涉及一种基于多指标数据的故障定位方法、系统设备及存储介质。
背景技术
一直以来,运维工作都是以人工运维为主,这种模式非常依赖于人力的投入和个体的运维水平,如何能保证高质量的运维水平更受制于此。随着计算机的普及,业务的形式越来越多样,需要运维的信息系统也越来越多;同时客户的诉求越来越多,对运维的质量又提出了更高的要求;人力的成本也在逐步提升,仅采用人工运维的模式很难有效率、速度上的进步。
在这种情况下,自动化运维应运而生。自动化运维主要是通过可被自动触发的、预定义规则的脚本执行大量简单、常见、重复的运维工作,一定程度上减少了人力成本,提高了运维效率。因此,自动化运维被认为是一种基于行业领域知识和运维场景领域知识的专家系统。随着互联网业务的急剧膨胀,业务周期缩短,业务类型更加繁多,信息系统之间的关系错综复杂,自动化运维并不能解决“规则”之外的运维工作,例如故障的定位等情况。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多指标数据的故障定位方法、系统设备及存储介质。
本发明的目的可以通过以下技术方案来实现:
一种基于多指标数据的故障定位方法,包括以下步骤:
S1:采集待检测系统的指标数据;
S2:将采集到的指标数据统一到同一粒度下;
S3:提取每个指标数据对应的细化指标,并对细化指标进行分层聚合;
S4:对细化指标进行异常检测,根据细化指标的历史数据进行算法模型训练,根据算法模型对实时数据进行预测,获取各细化指标的健康度,根据各细化指标的健康度获取各层级的健康度,并根据各层级的健康度获取系统的健康度;
S5:根据各细化指标、各层级、系统的健康度数据,对故障进行定位。
优选地,所述的S2的具体步骤包括:对采集到的指标数据进行数据处理操作,所述的数据处理操作包括数据检查、数据清洗、数据补全、异常标记。
优选地,所述的指标数据的采集接口包括Kafka数据流、Http接口、数据库接口,所述的数据库接口包括Oracle、MySQL、PostgreSQL、InfluxDB、MongoDB、ES数据库接口。
优选地,所述的数据处理操作的数据处理方式包括:正则、IP转换、字段管理、添加标签、日期转换、字段提取、类型转换、大小写转换、User Agent解析、URL Decode解析、替换规则、JSON解析、XML解析、分隔符解析和数学计算。
优选地,所述的指标数据包括业务指标、服务指标和物理指标。
优选地,所述的业务指标的细化指标包括核心业务数据统计值,所述的服务指标的细化指标包括服务响应时长、服务响应成功率、单位时间内交易量、数据库服务连接数、中间件服务队列情况和中间件内存回收情况,所述的物理指标的细化指标包括主机CPU情况、主机内存情况、主机文件系统情况、主机数据量流入情况、主机数据流出情况。
优选地,所述的S4中对细化指标进行异常检测的异常检测算法为基于基线的异常检测算法、基于频域的异常检测算法、自动阈值的异常检测算法中的一种。
一种基于多指标数据的故障定位系统所述的系统包括数据采集模块、数据预处理模块、数据聚合模块、健康度获取模块和故障定位模块,
所述的数据采集模块采集待检测系统的指标数据,
所述的数据预处理模块将采集到的指标数据统一到同一粒度下,
所述的数据聚合模块提取每个指标数据对应的细化指标,并对细化指标进行分层聚合,
所述的健康度获取模块对细化指标进行异常检测,根据细化指标的历史数据进行算法模型训练,根据算法模型对实时数据进行预测,获取各细化指标的健康度,根据各细化指标的健康度获取各层级的健康度,并根据各层级的健康度获取系统的健康度,
所述的故障定位模块根据各细化指标、各层级、系统的健康度数据,对故障进行定位。
一种电子设备,包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述电子设备执行上述的一种基于多指标数据的故障定位方法。
一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现上述的一种基于多指标数据的故障定位方法。
与现有技术相比,本发明具有如下优点:
(1)本发明通过获取待故障定位监测系统的指标数据,并对指标数据进行细化指标提取和分层聚合,有效全面地获取系统的故障指标数据,提高本发明故障定位的准确性和可靠性;
(2)本发明对数据进行采集时能够匹配多种数据源的不同采集接口,提高本发明的适用范围,并且在数据处理操作时基于多种处理方式对数据进行数据检查、数据清洗、数据补全、异常标记,提高数据处理的准确性和精度;
(3)本发明基于多种异常检测算法对指标数据进行异常检测,基于各指标数据的历史数据获取对指标数据的异常进行告警的算法模型,能够对各指标、各层级和系统进行有效的健康度评价,根据健康度获取系统的故障定位信息,提高对故障定位的准确性和效率,提高故障识别的自动化程度,有效降低人工成本。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
一种基于多指标数据的故障定位方法,如图1所示,包括以下步骤:
S1:采集待检测系统的指标数据。
本实施例中,获取到系统的指标数据,并将指标存储到介质中。指标数据根据场景有不同的分类,例如业务数据/监控数据/配置数据/日志数据、实时数据/非实时数据、格式化数据/非格式化数据、需要索引的数据/只需运算的数据、可视化数据/告警数据、全量数据/抽样数据等,每一种数据都对应了一种或多种数据处理、分析和存储方式。
采集的指标数据的接口程序有统一的规范,接口具有设定采集范围和采集频率、观察接口采集效率,统计采集的数据量的功能。指标数据的数据源输入方式包括Kafka数据流、Http接口、数据库接口,所述的数据库接口包括Oracle、MySQL、PostgreSQL、InfluxDB、MongoDB、ES数据库接口。
S2:将采集到的指标数据统一到同一粒度下。
S2的具体步骤包括:对采集到的指标数据进行数据处理操作,所述的数据处理操作包括数据检查、数据清洗、数据补全、异常标记。
本实施例中,可以利用可视化界面对指标数据进行处理,所述的数据处理操作的数据处理方式包括:正则、IP转换、字段管理、添加标签、日期转换、字段提取、类型转换、大小写转换、User Agent解析、URL Decode解析、替换规则、JSON解析、XML解析、分隔符解析和数学计算,本实施例中,该数据处理还包括利用log2、log10、abs、avg、sum等函数对原始数据二次处理计算。
S3:提取每个指标数据对应的细化指标,并对细化指标进行分层聚合。
本实施例中,指标数据包括业务指标、服务指标和物理指标。
进一步地,对指标数据进行细化指标划分时,划分为:服务指标的细化指标包括服务响应时长、服务响应成功率、单位时间内交易量、数据库服务连接数、中间件服务队列情况和中间件内存回收情况,所述的物理指标的细化指标包括主机CPU情况、主机内存情况、主机文件系统情况、主机数据量流入情况、主机数据流出情况。
根据业务系统的架构可将指标分为5层,依次是“系统”-“应用”-“组件”-“服务”-“基础”,指标都来自于业务指标、服务指标和物理指标数据,根据系统特征按不同级别进行细化指标分层聚合,分别划分到5个层次中,这样每一层都会有一个或者多个细化指标。
S4:对细化指标进行异常检测,根据细化指标的历史数据进行算法模型训练,根据算法模型对实时数据进行预测,获取各细化指标的健康度,根据各细化指标的健康度获取各层级的健康度,并根据各层级的健康度获取系统的健康度。
利用机器学习算法实现各级细化指标的单指标异常检测,通过对单个指标数据进行数据分析,确定数据形式,选择下面三种算法中之一进行异常检测:基于基线的异常检测算法、基于频域的异常检测算法、自动阈值的异常检测算法,机器学习过程中,对数据进行预处理,统一数据整合的逻辑和粒度,以历史数据进行训练,获得算法模型,使用算法模型对实时数据进行预测,若实际数据不在预测的数据区间,则触发异常告警。对于出现了异常,系统会根据异常的级别对健康度进行计算,如严重异常减去10分,主要异常减去5分,次要异常减去2分;以此计算出单个指标的健康度。每一层是由多个指标组成,将多个指标的健康度进行汇集形成每一层的健康度,汇集方式包括求均值、最大值、最小值,具体可以根据实际的场景进行选择。此时,综合各层级健康度,根据运算规则可以推算出系统的健康度。
S5:根据各细化指标、各层级、系统的健康度数据,对故障进行定位。
本实施例中,与获取系统健康的流程反推,有了系统健康度之后,如健康度出现异常,可以逐层下钻,从系统到各层面到具体指标,可以发现故障的问题根因在哪里。三层指标自顶而下,如果指标同时出现异常,则可判定故障根因由底层指标异常导致。如果单个指标出现异常,则可判定单个指标异常导致了故障。
与上述一种基于多指标数据的故障定位方法对应,本申请实施例所提供的系统,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,系统实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,在此不再赘述。
一种基于多指标数据的故障定位系统所述的系统包括数据采集模块、数据预处理模块、数据聚合模块、健康度获取模块和故障定位模块,所述的数据采集模块采集待检测系统的指标数据,所述的数据预处理模块将采集到的指标数据统一到同一粒度下,所述的数据聚合模块提取每个指标数据对应的细化指标,并对细化指标进行分层聚合,所述的健康度获取模块对细化指标进行异常检测,根据细化指标的历史数据进行算法模型训练,根据算法模型对实时数据进行预测,获取各细化指标的健康度,根据各细化指标的健康度获取各层级的健康度,并根据各层级的健康度获取系统的健康度,所述的故障定位模块根据各细化指标、各层级、系统的健康度数据,对故障进行定位。
一种电子设备,包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述电子设备执行上述的一种基于多指标数据的故障定位方法,具体实现可参见方法实施例,在此不再赘述。
一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现上述的一种基于多指标数据的故障定位方法,具体实现可参见方法实施例,在此不再赘述。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims (10)

1.一种基于多指标数据的故障定位方法,其特征在于,包括以下步骤:
S1:采集待检测系统的指标数据;
S2:将采集到的指标数据统一到同一粒度下;
S3:提取每个指标数据对应的细化指标,并对细化指标进行分层聚合;
S4:对细化指标进行异常检测,根据细化指标的历史数据进行算法模型训练,根据算法模型对实时数据进行预测,获取各细化指标的健康度,根据各细化指标的健康度获取各层级的健康度,并根据各层级的健康度获取系统的健康度;
S5:根据各细化指标、各层级、系统的健康度数据,对故障进行定位。
2.根据权利要求1所述的一种基于多指标数据的故障定位方法,其特征在于,所述的S2的具体步骤包括:对采集到的指标数据进行数据处理操作,所述的数据处理操作包括数据检查、数据清洗、数据补全、异常标记。
3.根据权利要求1所述的一种基于多指标数据的故障定位方法,其特征在于,所述的指标数据的采集接口包括Kafka数据流、Http接口、数据库接口,所述的数据库接口包括Oracle、MySQL、PostgreSQL、InfluxDB、MongoDB、ES数据库接口。
4.根据权利要求1所述的一种基于多指标数据的故障定位方法,其特征在于,所述的数据处理操作的数据处理方式包括:正则、IP转换、字段管理、添加标签、日期转换、字段提取、类型转换、大小写转换、User Agent解析、URL Decode解析、替换规则、JSON解析、XML解析、分隔符解析和数学计算。
5.根据权利要求1所述的一种基于多指标数据的故障定位方法,其特征在于,所述的指标数据包括业务指标、服务指标和物理指标。
6.根据权利要求1所述的一种基于多指标数据的故障定位方法,其特征在于,所述的业务指标的细化指标包括核心业务数据统计值,所述的服务指标的细化指标包括服务响应时长、服务响应成功率、单位时间内交易量、数据库服务连接数、中间件服务队列情况和中间件内存回收情况,所述的物理指标的细化指标包括主机CPU情况、主机内存情况、主机文件系统情况、主机数据量流入情况、主机数据流出情况。
7.根据权利要求1所述的一种基于多指标数据的故障定位方法,其特征在于,所述的S4中对细化指标进行异常检测的异常检测算法为基于基线的异常检测算法、基于频域的异常检测算法、自动阈值的异常检测算法中的一种。
8.一种基于多指标数据的故障定位系统,其特征在于,所述的系统包括数据采集模块、数据预处理模块、数据聚合模块、健康度获取模块和故障定位模块,
所述的数据采集模块采集待检测系统的指标数据,
所述的数据预处理模块将采集到的指标数据统一到同一粒度下,
所述的数据聚合模块提取每个指标数据对应的细化指标,并对细化指标进行分层聚合,
所述的健康度获取模块对细化指标进行异常检测,根据细化指标的历史数据进行算法模型训练,根据算法模型对实时数据进行预测,获取各细化指标的健康度,根据各细化指标的健康度获取各层级的健康度,并根据各层级的健康度获取系统的健康度,
所述的故障定位模块根据各细化指标、各层级、系统的健康度数据,对故障进行定位。
9.一种电子设备,其特征在于,包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述电子设备执行权利要求1-7中任意一项所述的一种基于多指标数据的故障定位方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1-7任意一项所述的一种基于多指标数据的故障定位方法。
CN202110120532.9A 2021-01-28 2021-01-28 基于多指标数据的故障定位方法、系统设备及存储介质 Pending CN112801316A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110120532.9A CN112801316A (zh) 2021-01-28 2021-01-28 基于多指标数据的故障定位方法、系统设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110120532.9A CN112801316A (zh) 2021-01-28 2021-01-28 基于多指标数据的故障定位方法、系统设备及存储介质

Publications (1)

Publication Number Publication Date
CN112801316A true CN112801316A (zh) 2021-05-14

Family

ID=75812533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110120532.9A Pending CN112801316A (zh) 2021-01-28 2021-01-28 基于多指标数据的故障定位方法、系统设备及存储介质

Country Status (1)

Country Link
CN (1) CN112801316A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487316A (zh) * 2021-07-22 2021-10-08 银清科技有限公司 分布式支付系统安全处理方法及装置
WO2024027127A1 (zh) * 2022-08-03 2024-02-08 中兴通讯股份有限公司 故障检测方法、装置、电子设备及可读存储介质
CN115460061B (zh) * 2022-08-03 2024-04-30 中国科学院信息工程研究所 基于智能运维场景的健康度评价方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932559A (zh) * 2018-05-31 2018-12-04 上海埃威航空电子有限公司 航空系统地面监管集群综合性能评价方法和系统
CN109800127A (zh) * 2019-01-03 2019-05-24 众安信息技术服务有限公司 一种基于机器学习的系统故障诊断智能化运维方法及系统
CN109819004A (zh) * 2017-11-22 2019-05-28 中国人寿保险股份有限公司 用于部署多活数据中心的方法和系统
CN110825769A (zh) * 2019-10-11 2020-02-21 苏宁金融科技(南京)有限公司 一种数据指标异常的查询方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819004A (zh) * 2017-11-22 2019-05-28 中国人寿保险股份有限公司 用于部署多活数据中心的方法和系统
CN108932559A (zh) * 2018-05-31 2018-12-04 上海埃威航空电子有限公司 航空系统地面监管集群综合性能评价方法和系统
CN109800127A (zh) * 2019-01-03 2019-05-24 众安信息技术服务有限公司 一种基于机器学习的系统故障诊断智能化运维方法及系统
CN110825769A (zh) * 2019-10-11 2020-02-21 苏宁金融科技(南京)有限公司 一种数据指标异常的查询方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁剑等: "基于复杂事件处理技术的电网故障信息分析及诊断方法", 《中国电机工程学报》, vol. 27, no. 28, pages 40 - 45 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487316A (zh) * 2021-07-22 2021-10-08 银清科技有限公司 分布式支付系统安全处理方法及装置
CN113487316B (zh) * 2021-07-22 2024-05-03 银清科技有限公司 分布式支付系统安全处理方法及装置
WO2024027127A1 (zh) * 2022-08-03 2024-02-08 中兴通讯股份有限公司 故障检测方法、装置、电子设备及可读存储介质
CN115460061B (zh) * 2022-08-03 2024-04-30 中国科学院信息工程研究所 基于智能运维场景的健康度评价方法及装置

Similar Documents

Publication Publication Date Title
EP3616127B1 (en) Real-time anomaly detection and correlation of time-series data
US11294754B2 (en) System and method for contextual event sequence analysis
US10223190B2 (en) Identification of storage system elements causing performance degradation
US11240125B2 (en) System and method for predicting and reducing subscriber churn
JP2019502191A (ja) サービス呼び出し情報処理の方法及びデバイス
US20140258187A1 (en) Generating database cluster health alerts using machine learning
CN106104496A (zh) 用于任意时序的不受监督的异常检测
EP3663919B1 (en) System and method of automated fault correction in a network environment
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
CN111309539A (zh) 一种异常监测方法、装置和电子设备
US20150066431A1 (en) Use of partial component failure data for integrated failure mode separation and failure prediction
JP2019036285A (ja) 健全性監視及び障害特徴識別の方法及びシステム
KR20190021560A (ko) 빅데이터를 활용한 고장예지보전시스템 및 고장예지보전방법
CN110738255A (zh) 一种基于聚类算法的设备状态监测方法
JP2018180759A (ja) システム分析装置、及びシステム分析方法
CN115514619B (zh) 告警收敛方法及系统
CN114356734A (zh) 服务异常检测方法和装置、设备、存储介质
CN113986595A (zh) 一种异常定位方法及装置
CN111666978A (zh) 一种it系统运维大数据的智能故障预警系统
CN112801316A (zh) 基于多指标数据的故障定位方法、系统设备及存储介质
CN113554128A (zh) 一种非常规异常检测方法、系统及存储介质
CN106909492B (zh) 业务数据的追踪方法及装置
CN116108376A (zh) 一种反窃电的监测系统、方法、电子设备及介质
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
CN113285978B (zh) 基于区块链和大数据的故障识别方法及通用计算节点

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination