CN111027615A - 基于机器学习的中间件故障预警方法和系统 - Google Patents

基于机器学习的中间件故障预警方法和系统 Download PDF

Info

Publication number
CN111027615A
CN111027615A CN201911237337.3A CN201911237337A CN111027615A CN 111027615 A CN111027615 A CN 111027615A CN 201911237337 A CN201911237337 A CN 201911237337A CN 111027615 A CN111027615 A CN 111027615A
Authority
CN
China
Prior art keywords
data
middleware
fault
time
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911237337.3A
Other languages
English (en)
Other versions
CN111027615B (zh
Inventor
李叶飞
王松云
姜丽丽
陈国琳
厉文婕
钱柱中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Jiangsu Fangtian Power Technology Co Ltd
Original Assignee
Nanjing University
Jiangsu Fangtian Power Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University, Jiangsu Fangtian Power Technology Co Ltd filed Critical Nanjing University
Priority to CN201911237337.3A priority Critical patent/CN111027615B/zh
Publication of CN111027615A publication Critical patent/CN111027615A/zh
Application granted granted Critical
Publication of CN111027615B publication Critical patent/CN111027615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了基于机器学习的中间件故障预警方法和系统,该方法包括如下步骤:(1)实时采集电力信息系统中间件的数据;(2)进行安全性验证;(3)对电力信息系统中间件的历史日志数据和实时日志数据进行预处理;(4)以预处理后的中间件的历史日志数据和实时日志数据作为输入,对基于机器学习的分类算法进行训练,形成故障分类器;(5)通过基于机器学习的回归算法分析中间件指标值与中间件故障的关系,拟合故障特征函数,并基于故障特征函数和故障分类器进行故障预警的实时判断。本发明有效克服了电力信息系统故障诊断时效差、准确度低、无法提前预警等问题,实现了基于电力信息系统中间件的实时故障预警,可保障系统安全、高效运行。

Description

基于机器学习的中间件故障预警方法和系统
技术领域
本发明涉及故障诊断信号处理技术领域,尤其涉及一种基于机器学习的故障预警方法和系统。
背景技术
目前电力信息系统架构都是基于应用中间件连接底层数据库和上层应用,中间件的运行稳定与否直接关系到整个信息系统的运行稳定,对于信息系统中间件这一关键环节构建监控就显得尤为重要。针对该问题,目前主要使用人工的方式定期检查上述环境的工作状态,力求及早发现故障及早解决。但是人工检查受制于时间、经验等因素,检查时效差,准确度低,更重要的是无法实现对故障的预测。面对着分散的系统资源无法直接有效地进行监控和隐患排查,在发生问题时,无法快速地准确定位问题,进而影响电力信息系统运行参数指标。因此电力信息系统运维工作中实现信息系统运维智能、故障预警和故障定位功能,将是信息运维管理提升的核心内容。但目前信息系统中间件故障预警仍存在以下诸多问题:
(1)随着信息运维业务的发展,大量的数据不断生成和积累,从数据类型上看,除重复的结构化数据外,还产生大量的日志、工单等半结构化的数据;目前信息系统暂无对这些数据的分析和处理。
(2)电力信息系统中间件在出现故障后,无统一的预警机制,主要采取在故障发生后进行告警和检修的被动运维模式,这种模式导致运维人员将日常大部分时间和经历都花在处理简单且重复的问题上,况且运维人员数量有限,通常不管是什么类型的信息系统中间件发生故障都会造成不同程度的经济损失和严重后果。
(3)缺乏在故障发生之前对信息运维体系进行提前预警的能力,缺乏对运维隐患进行定位和分析的能力,因此急需一种以预防为主,防范于未然的主动预警方法。
发明内容
发明目的:本发明为了解决现有的电力信息系统故障预警技术的不足,提供了一种基于机器学习的中间件故障预警方法,同时提供了一种基于机器学习的中间件故障预警系统。
技术方案:为解决上述技术问题,本发明提供的基于机器学习的中间件故障预警方法,其包括如下步骤:
(1)实时采集运行过程中的电力信息系统中间件的数据;所述电力信息系统中间件的数据包括中间件实时日志数据和中间件实时指标值数据;
(2)对步骤(1)采集得到的实时日志数据进行安全性验证;
(3)对电力信息系统中间件的历史日志数据和实时日志数据进行预处理;
(4)以经步骤(3)预处理后的电力信息系统中间件的历史日志数据和实时日志数据作为输入,对基于机器学习的分类算法进行训练,形成故障分类器;
(5)通过基于机器学习的回归算法分析中间件指标值与中间件故障的关系,拟合故障特征函数,并基于故障特征函数和故障分类器进行故障预警的实时判断,从而实现基于电力信息系统中间件的实时故障预警。
优选的,所述步骤(2)中的安全性验证包括采用RSA加密技术的日志数据签名和日志数据验证。
作为优选的,所述步骤(3)中采用特征选择方法对电力信息系统中间件的历史日志数据和实时日志数据进行的预处理包括数据清理、数据转换和数据归并。
作为优选的,所述特征选择方法包括在预处理中采用过滤式算法对电力信息系统中间件的历史日志数据和实时日志数据进行清理,以及在预处理中采用基于时间阈值和属性相异度阈值的综合归并算法进行数据归并。
优选的,其中数据清理是利用过滤式算法去除多余属性值和错误日志,并采用插补法将空缺值补齐,以更新数据资源。
优选的,其中数据转换是对数据清理后的数据进行数据泛化、数据规范化以及属性构造处理,以提高数据精度。
优选的,其中数据归并是将数据转换后的数据中相同或相似度小于预设的相似度阈值的日志合并为一条日志。
优选的,所述预处理中进行清理的数据类型包括错误值和/或空缺值和/或重复数据和/或噪声和/或矛盾数据。
优选的,所述预处理中的数据转换中将日志数据分为管理配置类、流量控制类及攻击事件类,并统一各类日志的格式。
进一步优选的,所述数据清理包括以下步骤:
M1)定义错误类型:包括数据分析和定义数据清洗规则;其中数据分析为根据数据的不一致性和错误实际情况,利用Python的pandas库提取数据属性来发掘数据错误;其中定义数据清洗规则是对数据清洗和转换的规则进行定义,制定数据清洗的语言并完成转换代码的生成;
M2)搜寻识别错误类型:包括自动检测属性错误及检测重复记录;其中自动检测属性错误通过统计法和聚类法对数据的属性错误进行识别;其中重复记录的检测通过shingle算法对重复记录的情况进行搜寻;
M3)纠正步骤M2)所发现的错误信息:包括对数据进行属性分离、确认改正和标准化;
M4)干净数据回流:将经步骤M3)处理后的数据回传至电力信息系统,并删除电力信息系统中的原有数据。
作为进一步的优选,所述预处理中采用基于时间阈值和属性相异度阈值的综合归并算法进行数据归并包括以下步骤:
N1)当一条新日志到达时,计算其与上一条日志的时间间隔;
N2)若该时间间隔大于时间阈值,则直接作为新的归并日志起点;
N3)判若时间间隔小于时间阈值,则计算属性相异度;
N4)将属性相异度小于预设阈值的日志记录进行归并;
N5)将属性相异度大于预设阈值的日志记录作为日志归并新起点。
进一步优选的,所述步骤(4)中的分类算法为决策树分类算法,其中以经预处理后的电力信息系统中间件的历史日志数据和实时日志数据作为输入,对基于机器学习的分类算法进行训练形成故障分类器的步骤包括:
L1)分类提取样本数据:搜集若干组与中间件日志故障类型一一对应的日志数据作为各故障类型的样本数据;所述中间件日志故障类型包括管理配置类、流量控制类以及攻击事件类;
L2)将步骤L1)搜集获得的各组样本数据分为训练集和测试集;
L3)以训练集中对应三种故障类型的各组样本数据作为输入,相对应的中间件故障类型作为输出,通过决策树算法对训练集进行训练,得到用于中间件故障类型诊断的分类决策树的分类模型;进而对该分类模型进行剪枝;
L4)用测试集中对应三种故障类型的各组样本数据对剪枝后的分类模型进行测试,获得准确率r;
L5)判断准确率r是否大于等于预设的准确率阈值T,如是,则完成训练输出该分类模型作为故障分类器,如否,则再次进行剪枝后跳回步骤L4)。
进一步优选的,所述步骤(5)中通过基于机器学习的回归算法分析中间件指标值与中间件故障的关系,拟合故障特征函数,并基于故障特征函数和故障分类器进行故障预警的实时判断,包括如下步骤:
K1)中间件实时指标值数据准备:根据选取的中间件参数模型,采用无插件方式抓取中间件配置参数和实时运行状态的性能指标,作为中间件实时指标值数据;
K2)数据预处理:对步骤K1)获得的中间件实时指标值数据利用过滤算法进行清理,以消除数据中包括冗余、不完整和不一致性在内的问题;
K3)拟合故障特征函数:以故障分类器中的故障信息作为因变量,K1)的中间件指标值作为自变量,通过多元线性回归算法拟合故障特征函数,得到中间件故障的预测结果;
K4)参数估计:采用最小二乘法得到多元线性回归算法的参数估计值;
K5)残差计算:计算历史的中间件故障时的中间件指标值与正常状况时的中间件指标值的残差,获得残差序列,并实时计算中间件的当前指标值与预测指标值的残差绝对值;
K6)计算故障阈值:根据步骤K3)得到的中间件故障的预测结果、步骤K4)得到的参数估计值以及误差调整因子计算得到对应时间切片区间内的故障阈值;
K7)故障信息判断:判断步骤K5)得到的残差绝对值是否大于步骤K6)得到的故障阈值,如是则输出故障预警信息,如否,则结束。
更进一步优选的,所述步骤(5)中通过基于机器学习的回归算法分析中间件指标值与中间件故障的关系,拟合故障特征函数,并基于故障特征函数和故障分类器进行故障预警的实时判断还包括步骤K8):预警结果评估和反馈:如输出的故障预警信息被评估为虚警,则调整误差调整因子并返回步骤K6)。
本发明同时提供的基于机器学习的中间件故障预警系统,其包括一个或多个计算设备可读存储介质,所述计算设备可读存储介质存储一个或多个程序;
当所述一个或多个程序被计算设备执行时,所述计算设备实现如上所述任一方法的步骤。
有益效果:本发明提供了一种基于机器学习的中间件故障预警方法,综合分析信息系统中间件故障出现的特征,应用基于机器学习的故障预警算法,以中间件的日志数据和中间件指标数据作为输入,进行训练,建立故障预警机制。该方法通过对日志信息利用特征选择算法进行预处理,剔除日志中无关信息,然后把基于日志的预警转化成机器学习的分类问题,设计分类算法,进行训练,形成故障分类器;对于中间件的指标数据,通过机器学习的回归算法,分析中间件指标值与中间件故障之间的关系,拟合故障特征函数,以故障特征函数作为故障预警的判断,实现对电力信息系统中间件的实时故障预警。
本发明提供的基于机器学习的中间件故障预警方法,有效克服了电力信息系统中间件故障诊断时效差、准确度低、无法提前预警等诸多问题,以预防为主进行防范于未然的主动智能预警,实现了基于电力信息系统中间件的实时智能故障诊断和预测,可保障系统安全、高效地运行。
附图说明
图1为实施例提供的基于机器学习的中间件故障预警方法的流程示意图;
图2为实施例中的数据清理的流程示意图;
图3为实施例中的综合归并算法的流程示意图;
图4为实施例中的故障分类器的工作流程示意图;
图5为实施例中的多元线性回归算法的流程示意图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,本实施列对本发明不构成限定。
通过对信息运维故障的统计分析发现,内存泄漏问题、归档日志问题等绝大部分信息运维故障可在发生前获取相关信息,通过信息系统中间件指标和日志预警模型可以对信息运维系统进行预警,因此,本发明从日志数据分析出发进行信息系统中间件预警,从而实现以预防为主,防范于未然的主动智能预警模式。本发明提供的基于机器学习的中间件故障预警方法,综合分析信息系统中间件故障出现的特征,应用基于机器学习的故障预警算法,以中间件的日志数据和中间件指标数据作为输入,进行训练,建立故障预警机制;对日志信息进行预处理,剔除日志中无关信息,,设计分类算法进行训练,并形成故障分类器;对于中间件的指标数据,通过基于机器学习的回归算法,分析中间件指标值与中间件故障之间的关系,拟合故障特征函数,以故障特征函数作为故障预警的判断,实现对电力信息系统中间件的实时故障预警。
由图1所示的流程示意图可见,本实施例提供的基于机器学习的中间件故障预警方法,具体包括如下步骤:
(1)实时采集运行过程中的电力信息系统中间件的数据;所述电力信息系统中间件的数据包括中间件实时日志数据和中间件实时指标值数据;
(2)对步骤(1)采集得到的实时日志数据进行安全性验证(图中未示出);
(3)对电力信息系统中间件的历史日志数据和实时日志数据进行预处理;
(4)以经步骤(3)预处理后的电力信息系统中间件的历史日志数据和实时日志数据作为输入,对基于机器学习的分类算法进行训练,形成故障分类器;
(5)通过基于机器学习的回归算法分析中间件指标值(包括中间件历史指标值和中间件实时指标值)与中间件故障的关系,拟合故障特征函数,并基于故障特征函数和故障分类器进行故障预警的实时判断,从而实现基于电力信息系统中间件的实时故障预警。
其中步骤(5)中通过基于机器学习的回归算法分析中间件指标值与中间件故障的关系,拟合故障特征函数,以作为中间件预警的决策工具,即以所拟合的故障特征函数来判断是否产生中间件预警,并根据该预警的相关故障信息基于故障分类器来判断该预警的故障类型,从而实现基于电力信息系统中间件的实时故障预警。
上述步骤(1)中电力信息系统中间件的数据包括中间件实时日志数据和中间件实时指标值数据。中间件日志信息通过日志工具、脚本工具采集并上传至日志收集模块,中间件指标值通过中间件集群监测模块和中间件节点监测模块监测,采取无插件方式抓取/采集获取。
其中中间件集群监测模块包括但不限于Cluster数据监测、Nodestatus数据监测、JDBC数据监测、Heap数据监测、Thread数据监测、和/或RunTime数据监测。本实施例中包括以上六大类的中间件性能指标监测。其中中间件节点监测模块主要针对中间件集群中的各个Server数据监测。
同时,由于日志数据规模较大具有易篡改性和易逝性,为保证日志数据的完整性、正确性和可靠性,需要对日志数据进行加密保护。因此本实施例在上述步骤(2)中的安全性验证中包括:日志数据签名和日志数据验证,这两部分采用RSA签名,RSA采用了公钥算法,它既可以用来加密数据,也可以用于身份认证,在公钥系统中,它生成签名的密钥只存储于用户的计算机中,安全性高。也就是说上述步骤(2)中的安全性验证包括采用RSA加密技术的日志数据签名和日志数据验证。
上述步骤(3)中采用特征选择方法对电力信息系统中间件的历史日志数据和实时日志数据进行的预处理包括数据清理、数据转换和数据归并;
所述特征选择方法包括在预处理中采用过滤式算法对电力信息系统中间件的历史日志数据和实时日志数据进行清理,以及在预处理中采用基于时间阈值和属性相异度阈值的综合归并算法进行数据归并。
其中数据清理是利用过滤式算法去除多余属性值和错误日志,并采用插补法将空缺值补齐,以更新数据资源;上述预处理中进行清理的数据类型包括错误值和/或空缺值和/或重复数据和/或噪声和/或矛盾数据。
其中数据转换是对数据清理后的数据进行数据泛化、数据规范化以及属性构造处理,以提高数据精度。本实施例中的数据转换中将日志数据分为管理配置类、流量控制类及攻击事件类,并统一各类日志的格式。
其中数据归并是将数据转换后的数据中相同或相似的日志合并为一条日志,其中相似的日志是指日志之间的相似度小于预设的相似度阈值,也即其中数据归并是将数据转换后的数据中相同或相似度小于预设的相似度阈值的日志合并为一条日志。其中数据归并是预处理中的重点。
本实施例中预设的相似度阈值为70%,其可采用现有技术中的统计法得到。
本实施例中上述过滤式算法如图2所示包括以下步骤:
M1)定义错误类型:包括数据分析和定义数据清洗规则;其中数据分析为根据数据的不一致性和错误实际情况,利用Python的pandas库提取数据属性来发掘数据错误;其中定义数据清洗规则是对数据清洗和转换的规则进行定义,制定数据清洗的语言并完成转换代码的生成;
M2)根据错误类型的定义,搜寻识别错误类型:包括自动检测属性错误及检测重复记录;其中自动检测属性错误通过统计法和聚类法对数据的属性错误进行识别;其中重复记录的检测通过shingle算法对重复记录的情况进行搜寻;
M3)纠正步骤M2)所发现的错误信息:包括对数据进行属性分离、确认改正和标准化;
M4)干净数据回流:将经步骤M3)处理后的数据回传至电力信息系统,并删除电力信息系统中的原有数据。
如图3所示,本实施例提供的预处理中采用基于时间阈值和属性相异度阈值的综合归并算法进行数据归并包括以下步骤:
N1)当一条新日志到达时,计算其与上一条日志的时间间隔;
N2)若该时间间隔大于时间阈值,则直接作为新的归并日志起点;
N3)判若时间间隔小于时间阈值,则计算属性相异度;
N4)将属性相异度小于预设阈值的日志记录进行归并;
N5)将属性相异度大于预设阈值的日志记录作为日志归并新起点。
如图4所示,本实施例上述步骤(4)中的分类算法为决策树分类算法,其中以经预处理后的电力信息系统中间件的历史日志数据和实时日志数据作为输入,对基于机器学习的分类算法进行训练形成故障分类器的步骤包括:
L1)分类提取样本数据:搜集若干组与中间件日志故障类型一一对应的日志数据作为各故障类型的样本数据;所述中间件日志故障类型包括管理配置类、流量控制类以及攻击事件类;
L2)将步骤L1)搜集获得的各组样本数据分为训练集和测试集;
L3)以训练集中对应三种故障类型的各组样本数据作为输入,相对应的中间件故障类型作为输出,通过决策树算法对训练集进行训练,得到用于中间件故障类型诊断的分类决策树的分类模型;进而对该分类模型进行剪枝;
L4)用测试集中对应三种故障类型的各组样本数据对剪枝后的分类模型进行测试,获得准确率r;
L5)判断准确率r是否大于等于预设的准确率阈值T,如是,则完成训练输出该分类模型作为故障分类器,如否,则再次进行剪枝后跳回步骤L4)。
本实施例中预设的准确率阈值T为70%。当然实际应用时也可以根据应用环境设为其他数值。
上述分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点又分为内部节点和叶子节点。内部节点表示一个特征或属性,叶子节点表示一个不能再分的类别。分类的时候,从根节点开始,对实例的某一个特征进行测试,根据测试结果,将实例分配到其子结点;此时,每一个子结点对应着该特征的一个取值。如此递归向下移动,直至达到叶结点,最后将实例分配到叶子结点的类中。本实施例中上述决策树算法中的决策树分类模型建立包括以下步骤:
1)规范化输入预处理过的日志数据集D={Xj(i);C(i)},i=1,2,...,M,j=1,2,...,N,其中,Xj(i)表示样本X(i)在特征Aj上的特征值,C(i)∈{c1,c2,...,cK}表示样本X(i)对应的类别标签值;其中M是X(i)样本个数,N是Xj(i)特征值个数;
2)设置日志数据集或数据子集的划分终止条件,也即决策树根据当前结点的状态,生成叶子结点不再继续划分的条件;
3)对原始样本数据集进行划分,创建决策树的根结点;
4)按照划分终止条件进行样本数据集的划分、决策树结点的分裂以及决策规则的产生;
5)采用递归的方式,将每次划分得到的样本子集继续进行划分,得到新的结点;
6)对未知类别标签值的样本X*进行类别值的判别。
安全日志数据经过初步分析和决策树模型训练后,形成故障分类器,当新的中间件日志输入后便可以与故障分类器中的故障进行比对进行异常检测。
如图5给出的多元线性回归算法的流程图所示,本实施例中上述步骤(5)中通过基于机器学习的回归算法分析中间件指标值与中间件故障的关系,拟合故障特征函数,并基于故障特征函数和故障分类器进行故障预警的实时判断,从而实现基于电力信息系统中间件的实时故障预警具体包括如下步骤:
K1)中间件实时指标值数据准备:根据选取的中间件参数模型,采用无插件方式抓取中间件配置参数和实时运行状态的性能指标,作为中间件实时指标值数据;
K2)数据预处理:对步骤K1)获得的中间件实时指标值数据利用过滤算法进行清理,以消除数据中包括冗余、不完整和不一致性在内的问题;
K3)拟合故障特征函数:以故障分类器中的故障信息作为因变量,K1)的中间件指标值作为自变量,通过多元线性回归算法拟合故障特征函数,得到中间件故障的预测结果;
其中故障特征函数如下:
y=β01x1+...+βpxp+ε (1);
上式(1)中,β01,…,βp是未知参数,β0为回归常数,β1,…,βp为回归系数;y为因变量;x1,x2,…,xp为自变量,这里是与因变量相关的监测量;ε为随机误差;若已知参数的估计值,则可实现中间件故障的预测:
Figure BDA0002305242250000101
上式(2)为经验回归方程,称为y的预测值;假定随机误差ε服从正态分布:E(ε)=0,Var(ε)=σ2
K4)参数估计:采用最小二乘法得到多元线性回归算法的参数估计值;
本实施例中,已知n组监测数据(xi1,xi2,…,xip;yi),样本预测的误差:
Figure BDA0002305242250000102
采用最小二乘法估计多元线性回归算法的参数,即使式(4)取最小值时的解:
Figure BDA0002305242250000103
分别对β01,…,βp求偏导数,并令其等于零,然后联立求解即可求得回归参数的估计值
Figure BDA0002305242250000104
K5)残差计算:计算历史的中间件故障时的中间件指标值与正常状况时的中间件指标值的残差,获得残差序列,并实时计算中间件的当前指标值与预测指标值的残差绝对值;本实施例中残差绝对值
Figure BDA0002305242250000105
K6)计算故障阈值:根据步骤K3)得到的中间件故障的预测结果、步骤K4)得到的参数估计值以及误差调整因子计算得到对应时间切片区间内的故障阈值;本实施例中计算得到的故障阈值
Figure BDA0002305242250000106
其中α为误差调整因子,初始设定后,后期可根据预警评估进行调整;其中γmean为残差绝对值的均值,
Figure BDA0002305242250000107
为参数估计值的均值。
K7)故障信息判断:判断步骤K5)得到的残差绝对值是否大于步骤K6)得到的故障阈值,如是则输出故障预警信息,如否,则结束。
在本实施例中,上述步骤(5)中通过基于机器学习的回归算法分析中间件指标值与中间件故障的关系,拟合故障特征函数,并基于故障特征函数和故障分类器进行故障预警的实时判断在步骤K7)后还包括步骤K8):预警结果评估和反馈:如输出的故障预警信息被评估为虚警,则调整误差调整因子并返回步骤K6)。在本实施例中具体为发生预警后,依据系统真实情况或者人工评估数据表明该故障预警信息为虚警(即评估预警准确性为不准确),则调整误差调整因子α,并返回步骤K6),如不是虚警(即评估预警准确性为准确),则结束。
本实施例同时提供了一种基于机器学习的中间件故障预警系统,该系统包括一个或多个计算设备可读存储介质,所述计算设备可读存储介质存储一个或多个程序;当所述一个或多个程序被计算设备执行时,所述计算设备实现本实施例提供的如上任一方法的步骤。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出以上实施列对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的多样变化和修改,均落在本发明的保护范围内。

Claims (10)

1.一种基于机器学习的中间件故障预警方法,其特征在于包括如下步骤:
(1)实时采集运行过程中的电力信息系统中间件的数据;所述电力信息系统中间件的数据包括中间件实时日志数据和中间件实时指标值数据;
(2)对步骤(1)采集得到的实时日志数据进行安全性验证;
(3)对电力信息系统中间件的历史日志数据和实时日志数据进行预处理;
(4)以经步骤(3)预处理后的电力信息系统中间件的历史日志数据和实时日志数据作为输入,对基于机器学习的分类算法进行训练,形成故障分类器;
(5)通过基于机器学习的回归算法分析中间件指标值与中间件故障的关系,拟合故障特征函数,并基于故障特征函数和故障分类器进行故障预警的实时判断,从而实现基于电力信息系统中间件的实时故障预警。
2.根据权利要求1所述的基于机器学习的中间件故障预警方法,其特征在于:所述步骤(2)中的安全性验证包括采用RSA加密技术的日志数据签名和日志数据验证。
3.根据权利要求1所述的基于机器学习的中间件故障预警方法,其特征在于:所述步骤(3)中采用特征选择方法对电力信息系统中间件的历史日志数据和实时日志数据进行的预处理包括数据清理、数据转换和数据归并;
所述特征选择方法包括在预处理中采用过滤式算法对电力信息系统中间件的历史日志数据和实时日志数据进行清理,以及在预处理中采用基于时间阈值和属性相异度阈值的综合归并算法进行数据归并。
4.根据权利要求3所述的基于机器学习的中间件故障预警方法,其特征在于:
其中数据清理是利用过滤式算法去除多余属性值和错误日志,并采用插补法将空缺值补齐,以更新数据资源;
其中数据转换是对数据清理后的数据进行数据泛化、数据规范化以及属性构造处理,以提高数据精度;
其中数据归并是将数据转换后的数据中相同或相似度小于预设的相似度阈值的日志合并为一条日志;
所述预处理中进行清理的数据类型包括错误值和/或空缺值和/或重复数据和/或噪声和/或矛盾数据;
所述预处理中的数据转换中将日志数据分为管理配置类、流量控制类及攻击事件类,并统一各类日志的格式。
5.根据权利要求3所述的基于机器学习的中间件故障预警方法,其特征在于:所述数据清理包括以下步骤:
M1)定义错误类型:包括数据分析和定义数据清洗规则;其中数据分析为根据数据的不一致性和错误实际情况,利用Python的pandas库提取数据属性来发掘数据错误;其中
定义数据清洗规则是对数据清洗和转换的规则进行定义,制定数据清洗的语言并完成转换代码的生成;
M2)搜寻识别错误类型:包括自动检测属性错误及检测重复记录;其中自动检测属性错误通过统计法和聚类法对数据的属性错误进行识别;其中重复记录的检测通过shingle算法对重复记录的情况进行搜寻;
M3)纠正步骤M2)所发现的错误信息:包括对数据进行属性分离、确认改正和标准化;
M4)干净数据回流:将经步骤M3)处理后的数据回传至电力信息系统,并删除电力信息系统中的原有数据。
6.根据权利要求3所述的基于机器学习的中间件故障预警方法,其特征在于:所述预处理中采用基于时间阈值和属性相异度阈值的综合归并算法进行数据归并包括以下步骤:
N1)当一条新日志到达时,计算其与上一条日志的时间间隔;
N2)若该时间间隔大于时间阈值,则直接作为新的归并日志起点;
N3)判若时间间隔小于时间阈值,则计算属性相异度;
N4)将属性相异度小于预设阈值的日志记录进行归并;
N5)将属性相异度大于预设阈值的日志记录作为日志归并新起点。
7.根据权利要求1所述的基于机器学习的中间件故障预警方法,其特征在于:所述步骤(4)中的分类算法为决策树分类算法,其中以经预处理后的电力信息系统中间件的历史日志数据和实时日志数据作为输入,对基于机器学习的分类算法进行训练形成故障分类器的步骤包括:
L1)分类提取样本数据:搜集若干组与中间件日志故障类型一一对应的日志数据作为各故障类型的样本数据;所述中间件日志故障类型包括管理配置类、流量控制类以及攻击事件类;
L2)将步骤L1)搜集获得的各组样本数据分为训练集和测试集;
L3)以训练集中对应三种故障类型的各组样本数据作为输入,相对应的中间件故障类型作为输出,通过决策树算法对训练集进行训练,得到用于中间件故障类型诊断的分类决策树的分类模型;进而对该分类模型进行剪枝;
L4)用测试集中对应三种故障类型的各组样本数据对剪枝后的分类模型进行测试,获得准确率r;
L5)判断准确率r是否大于等于预设的准确率阈值T,如是,则完成训练输出该分类模型作为故障分类器,如否,则再次进行剪枝后跳回步骤L4)。
8.根据权利要求1所述的基于机器学习的中间件故障预警方法,其特征在于:
所述步骤(5)中通过基于机器学习的回归算法分析中间件指标值与中间件故障的关系,拟合故障特征函数,并基于故障特征函数和故障分类器进行故障预警的实时判断,包括如下步骤:
K1)中间件实时指标值数据准备:根据选取的中间件参数模型,采用无插件方式抓取中间件配置参数和实时运行状态的性能指标,作为中间件实时指标值数据;
K2)数据预处理:对步骤K1)获得的中间件实时指标值数据利用过滤算法进行清理,以消除数据中包括冗余、不完整和不一致性在内的问题;
K3)拟合故障特征函数:以故障分类器中的故障信息作为因变量,K1)的中间件指标值作为自变量,通过多元线性回归算法拟合故障特征函数,得到中间件故障的预测结果;
K4)参数估计:采用最小二乘法得到多元线性回归算法的参数估计值;
K5)残差计算:计算历史的中间件故障时的中间件指标值与正常状况时的中间件指标值的残差,获得残差序列,并实时计算中间件的当前指标值与预测指标值的残差绝对值;
K6)计算故障阈值:根据步骤K3)得到的中间件故障的预测结果、步骤K4)得到的参数估计值以及误差调整因子计算得到对应时间切片区间内的故障阈值;
K7)故障信息判断:判断步骤K5)得到的残差绝对值是否大于步骤K6)得到的故障阈值,如是则输出故障预警信息,如否,则结束。
9.根据权利要求8所述的基于机器学习的中间件故障预警方法,其特征在于:所述步骤(5)中通过基于机器学习的回归算法分析中间件指标值与中间件故障的关系,拟合故障特征函数,并基于故障特征函数和故障分类器进行故障预警的实时判断还包括步骤K8):预警结果评估和反馈:如输出的故障预警信息被评估为虚警,则调整误差调整因子并返回步骤K6)。
10.一种基于机器学习的中间件故障预警系统,其特征在于,该系统包括一个或多个计算设备可读存储介质,所述计算设备可读存储介质存储一个或多个程序;
当所述一个或多个程序被计算设备执行时,所述计算设备实现如权利要求1~9中任一权利要求所述方法的步骤。
CN201911237337.3A 2019-12-05 2019-12-05 基于机器学习的中间件故障预警方法和系统 Active CN111027615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911237337.3A CN111027615B (zh) 2019-12-05 2019-12-05 基于机器学习的中间件故障预警方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911237337.3A CN111027615B (zh) 2019-12-05 2019-12-05 基于机器学习的中间件故障预警方法和系统

Publications (2)

Publication Number Publication Date
CN111027615A true CN111027615A (zh) 2020-04-17
CN111027615B CN111027615B (zh) 2022-06-10

Family

ID=70207320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911237337.3A Active CN111027615B (zh) 2019-12-05 2019-12-05 基于机器学习的中间件故障预警方法和系统

Country Status (1)

Country Link
CN (1) CN111027615B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000502A (zh) * 2020-08-11 2020-11-27 杭州安恒信息技术股份有限公司 海量错误日志的处理方法、装置、电子装置及存储介质
CN112269821A (zh) * 2020-10-30 2021-01-26 内蒙古电力(集团)有限责任公司乌海超高压供电局 一种基于大数据的电力设备状态分析方法
CN112365186A (zh) * 2020-11-27 2021-02-12 中国电建集团海外投资有限公司 一种电力信息系统健康度评估方法及其评估系统
CN112365000A (zh) * 2020-10-30 2021-02-12 国网福建省电力有限公司检修分公司 一种智慧空开装置的自动控制和预警方法及其实现平台
CN112667464A (zh) * 2020-12-22 2021-04-16 国网甘肃省电力公司 一种信息系统状态智能化分析方法、系统及设备
CN112712443A (zh) * 2021-01-08 2021-04-27 中国南方电网有限责任公司超高压输电公司昆明局 换流站的事件分析方法及分析装置
CN112882898A (zh) * 2021-02-24 2021-06-01 上海浦东发展银行股份有限公司 基于大数据日志分析的异常检测方法、系统、设备及介质
CN114169651A (zh) * 2022-02-14 2022-03-11 中国空气动力研究与发展中心计算空气动力研究所 一种基于应用相似性的超级计算机作业失败主动预测方法
CN118170685A (zh) * 2024-05-09 2024-06-11 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 一种自适应操作系统环境的自动化测试平台及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052528A (zh) * 2017-11-09 2018-05-18 华中科技大学 一种存储设备时序分类预警方法
CN108805202A (zh) * 2018-06-11 2018-11-13 上海新增鼎数据科技有限公司 一种用于电解槽故障预警的机器学习方法及其应用
CN110320892A (zh) * 2019-07-15 2019-10-11 重庆邮电大学 基于Lasso回归的污水处理设备故障诊断系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052528A (zh) * 2017-11-09 2018-05-18 华中科技大学 一种存储设备时序分类预警方法
CN108805202A (zh) * 2018-06-11 2018-11-13 上海新增鼎数据科技有限公司 一种用于电解槽故障预警的机器学习方法及其应用
CN110320892A (zh) * 2019-07-15 2019-10-11 重庆邮电大学 基于Lasso回归的污水处理设备故障诊断系统及方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000502A (zh) * 2020-08-11 2020-11-27 杭州安恒信息技术股份有限公司 海量错误日志的处理方法、装置、电子装置及存储介质
CN112269821A (zh) * 2020-10-30 2021-01-26 内蒙古电力(集团)有限责任公司乌海超高压供电局 一种基于大数据的电力设备状态分析方法
CN112365000A (zh) * 2020-10-30 2021-02-12 国网福建省电力有限公司检修分公司 一种智慧空开装置的自动控制和预警方法及其实现平台
CN112365186A (zh) * 2020-11-27 2021-02-12 中国电建集团海外投资有限公司 一种电力信息系统健康度评估方法及其评估系统
CN112667464A (zh) * 2020-12-22 2021-04-16 国网甘肃省电力公司 一种信息系统状态智能化分析方法、系统及设备
CN112712443A (zh) * 2021-01-08 2021-04-27 中国南方电网有限责任公司超高压输电公司昆明局 换流站的事件分析方法及分析装置
CN112882898A (zh) * 2021-02-24 2021-06-01 上海浦东发展银行股份有限公司 基于大数据日志分析的异常检测方法、系统、设备及介质
CN112882898B (zh) * 2021-02-24 2022-07-19 上海浦东发展银行股份有限公司 基于大数据日志分析的异常检测方法、系统、设备及介质
CN114169651A (zh) * 2022-02-14 2022-03-11 中国空气动力研究与发展中心计算空气动力研究所 一种基于应用相似性的超级计算机作业失败主动预测方法
CN114169651B (zh) * 2022-02-14 2022-04-19 中国空气动力研究与发展中心计算空气动力研究所 一种基于应用相似性的超级计算机作业失败主动预测方法
CN118170685A (zh) * 2024-05-09 2024-06-11 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 一种自适应操作系统环境的自动化测试平台及方法
CN118170685B (zh) * 2024-05-09 2024-07-30 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 一种自适应操作系统环境的自动化测试平台及方法

Also Published As

Publication number Publication date
CN111027615B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN111027615B (zh) 基于机器学习的中间件故障预警方法和系统
CN111259947A (zh) 一种基于多模态学习的电力系统故障预警方法和系统
CN107168995B (zh) 一种数据处理方法及服务器
CN113360722B (zh) 一种基于多维数据图谱的故障根因定位方法及系统
CN117421582A (zh) 一种基于多源数据驱动的设备健康分析方法
CN114201374A (zh) 基于混合机器学习的运维时序数据异常检测方法及系统
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
CN114385668A (zh) 冷数据清理方法、装置、设备及存储介质
CN115858606A (zh) 时序数据的异常检测方法、装置、设备及存储介质
CN113485878A (zh) 一种多数据中心故障检测方法
WO2024027487A1 (zh) 基于智能运维场景的健康度评价方法及装置
CN117544482A (zh) 基于ai的运维故障确定方法、装置、设备和存储介质
CN112882898A (zh) 基于大数据日志分析的异常检测方法、系统、设备及介质
CN111831528A (zh) 一种计算机系统日志关联方法及相关装置
CN116126807A (zh) 一种日志分析方法及相关装置
CN111400122A (zh) 一种硬盘健康度评估方法及装置
CN113591909A (zh) 电力系统的异常检测方法、异常检测装置以及存储介质
CN117971605B (zh) 基于数据库异常的自动化日志信息收集方法及系统
Lei et al. Application of distributed machine learning model in fault diagnosis of air preheater
CN118520517B (zh) 基于错误校验的固态硬盘数据保护系统
CN118467989B (zh) 基于业务分析的多源异构数据处理构建与验证方法
CN118174788B (zh) 一种光纤配线柜的故障检测方法、装置、设备及存储介质
CN118210791A (zh) 基于ai训练的大数据清洗方法及大数据采集系统
CN118245264A (zh) 服务器故障处理方法、装置、电子设备及介质
CN117544525A (zh) 一种用于地铁无线ap日志分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant