CN111858526A - 基于信息系统日志的故障时间空间预测方法及系统 - Google Patents

基于信息系统日志的故障时间空间预测方法及系统 Download PDF

Info

Publication number
CN111858526A
CN111858526A CN202010568671.3A CN202010568671A CN111858526A CN 111858526 A CN111858526 A CN 111858526A CN 202010568671 A CN202010568671 A CN 202010568671A CN 111858526 A CN111858526 A CN 111858526A
Authority
CN
China
Prior art keywords
fault
time
log
information system
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010568671.3A
Other languages
English (en)
Other versions
CN111858526B (zh
Inventor
吴树霖
朱京
赵子岩
李宏发
张江龙
高扬
李金凤
吴小华
张天奇
赵云龙
胡心颖
郭庆
杨彬彬
李小威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
State Grid Fujian Electric Power Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
State Grid Fujian Electric Power Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd, State Grid Fujian Electric Power Co Ltd, Anhui Jiyuan Software Co Ltd, Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN202010568671.3A priority Critical patent/CN111858526B/zh
Publication of CN111858526A publication Critical patent/CN111858526A/zh
Application granted granted Critical
Publication of CN111858526B publication Critical patent/CN111858526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了基于信息系统日志的故障时间空间预测方法及系统,包括:获取信息系统当前时刻t之前的n个时间段内的时序日志数据x1;基于所述时序日志数据对未来是否会产生故障进行判断:若不会产生故障,则不进一步处理;否则,进一步判断产生故障的具体时间点和空间位置;所述判断产生故障的具体时间点和空间位置采用多任务学习模型,对故障发生具体时间和位置这两个任务进行联合训练,并同时返回产生故障的具体时间点和空间位置,本发明不仅在以往预测故障有无的基础上,还能够同时预测出故障发生时间及故障产生的空间位置,将两个任务联合训练,利用故障信息之间的相关性只需一个流程就可实现,不必设置两个模型分别进行,提高了效率。

Description

基于信息系统日志的故障时间空间预测方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及基于信息系统日志的故障时间空间预测方法及系统。
背景技术
日志是一种反映信息系统运行轨迹的信息源,是每个信息系统必不可少的一部分。日志数据具有全业务范围、全时间类型、全时间维度的特性,蕴藏着信息系统运行的关键部分信息。在实际的生产工作中对运维人员进行系统维护和设备状态监控等活动有着至关重要的指导作用,利用日志数据可以提炼出较为有用的故障信息。
现有技术中,基于日志数据进行故障预测只能预测出故障的有无,也就是在未来一段时间内是否会产生故障。虽然有很多改进的技术,旨在提高预测的准确性,比如利用组合分类器,通过组合多个分类器形成复合模型,最终分类结果通过各分类器投票表决,可以用集成学习的算法来得以实现。但是对于要产生的故障其他信息是未知的,比如什么时间产生故障、故障发生在信息系统的哪个位置,预知信息系统故障时间和空间,能提前采取相应策略以免故障的发生。
发明内容
针对上述现有技术存在的问题,本发明提供了基于信息系统日志的故障时间空间预测方法及系统,基于日志数据对未来一段时间内是否会产生故障进行预测,并基于预测会发生故障的日志数据进行进一步精准预测,比如故障发生时间和发生位置,以用于信息系统管理员提前采取相应策略避免故障的发生。
本发明提供了基于信息系统日志的故障时间空间预测方法,包括:
获取信息系统当前时刻t之前的n个时间段(t-n*Δt,t)内的时序日志数据x1,进行预处理;
基于所述时序日志数据对未来一个时间段(t,t+Δt)内信息系统是否会产生故障进行判断:
若不会产生故障,则不进一步处理,并输出信息系统运行正常信息;
否则,进一步判断产生故障的具体时间点和空间位置,并输出包含时间空间信息的故障预警信息;
所述判断产生故障的具体时间点和空间位置采用多任务学习模型,对故障发生具体时间和位置这两个任务进行联合训练,并同时返回产生故障的具体时间点和空间位置。
作为上述方案的进一步优化,所述基于所述时序日志数据获取未来一个时间段内信息系统是否会产生故障进行判断,采用基于分类的故障预测模型获取,故障预测模型采用的算法包括但不限于关联规则算法、决策树、神经网络、贝叶斯网络、支持向量机。
作为上述方案的进一步优化,所述基于所述时序日志数据对未来一个时间段(t,t+Δt)内信息系统是否会产生故障进行判断,采用第一深度神经网络,
所述第一深度神经网络的训练过程为:采集历史时序日志数据,提取第一特征向量,形成训练样本集,所述第一特征向量包括与日志级别关联的特征,并将日志级别为alert、error、warning且持续时间大于第一预设阈值的日志作为故障日志数据进行标注,日志级别为notice、info、debug的日志作为非故障数据进行标注,进行故障预测训练;
所述第一深度神经网络的预测过程为:基于采集的(t-n*Δt,t)内的时序日志数据提取第一特征向量,输入第一深度神经网络,预测(t,t+Δt)的日志级别,若日志级别为warning级别以上,则确定(t,t+Δt)内会产生故障。
作为上述方案的进一步优化,所述第一预设阈值根据闪电告警日志的持续时间确定。
作为上述方案的进一步优化,所述多任务学习模型的训练过程为:采集历史故障时序日志数据,提取第二特征向量,形成训练样本集,所述第二特征向量包括与故障的位置和产生时间均关联的特征,并将故障的位置和产生时间作为标注数据进行训练;
所述多任务学习模型的预测过程为:基于采集的(t-n*Δt,t)内的时序日志数据中的故障数据,提取第二特征向量输入多任务学习模型,预测(t,t+Δt)发生故障的具体时间和位置。
作为上述方案的进一步优化,所述第一特征向量包括事件发生时间点、日志级别、事件持续时间、日志发生的空间信息、事件详情;
第二特征向量包括告警级别、故障名称、网元类型、网络设备性能、告警源、故障的定位信息、故障的产生时间和清除时间。
作为上述方案的进一步优化,所述多任务学习模型包括特征输入层、隐层、特定任务层、特征任务输出层,
所述特征输入层用于接收第二特征向量和标注数据,
所述隐层采用参数硬共享机制,用于实现两个任务的数据共享,
所述特定任务层包括第一特性隐藏层和第二特性隐藏层,分别用于学习故障的产生时间和位置的预测任务,
所述特征任务输出层包括第一任务输出层和第二任务输出层,分别用于分别输出产生故障的具体时间点和空间位置的预测值。
作为上述方案的进一步优化,所述多任务学习模型的训练过程还包括:基于特征输入层输入的第二特征向量,经过前向网络传播,特征任务输出层输出得到预测的故障的位置和产生时间,基于预设的多任务学习联合损失函数,获得特征任务输出层输出得到的预测值与该输入的第二特征向量携带的标注数据之间的多任务联合损失值,将多任务联合损失值进行反向传播,利用控制变量法进行模型参数优化,直至训练过程结束,获取最佳的网络参数。
作为上述方案的进一步优化,所述预设的多任务学习联合损失函数lossjoint为:
Figure BDA0002548519230000031
其中,loss1为故障时间的交叉熵损失函数,loss2为故障空间的交叉熵损失函数。
本发明还提供了基于信息系统日志的故障时间空间预测系统,包括:
时序日志数据获取模块,用于获取信息系统当前时刻t之前的n个时间段(t-n*Δt,t)内的时序日志数据x1,进行预处理;
故障预测模块,用于基于所述时序日志数据对未来一个时间段(t,t+Δt)内信息系统是否会产生故障进行判断,若不会产生故障,则不进一步处理,并输出信息系统运行正常信息;
故障时间空间预测模块,用于当故障预测模块预测结果为会产生故障时,进一步判断产生故障的具体时间点和空间位置,并输出包含时间空间信息的故障预警信息;所述判断产生故障的具体时间点和空间位置采用多任务学习模型,对故障发生具体时间和位置这两个任务进行联合训练,并同时返回产生故障的具体时间点和空间位置。
本发明的基于信息系统日志的故障时间空间预测方法及系统,具备如下有益效果:
1.本发明的基于信息系统日志的故障时间空间预测方法,采用先对日志数据预处理后训练出一个能预测是否会产生故障的模型,实现了对非故障日志数据的判断筛选过程,其中的过滤筛选过程,包括了对非故障日志的过滤和故障持续时间短的闪断告警日志的过滤,有效提高故障预测的效果,减小对下一步预测准确性的影响,在判断为会产生故障的基础上,进一步判断产生故障的具体位置和具体时间,不仅能实现预测故障有无,还能够在有故障的时候同时预测出故障发生时间及故障产生的空间位置,对系统未来一段时间的故障行为进行预测和分析,这样在故障出现之前,可以通过调度等预防措施,避免故障的发生或者尽可能降低故障导致的损失。
2.本发明的基于信息系统日志的故障时间空间预测方法,对于故障时间空间预测采用多任务学习模型,可以实现学习模型的模型结构的共享,简化深度学习模型的模型结构,与此同时,通过共享部分的引入,在进行模型训练时可以彼此影响,从而减少过度拟合的问题;故本实施例中通过共享部分的引入,具有模型整合度高及共享部分的特征不必重复计算的特点,与此同时执行该多任务学习模型的电子设备对信息系统日志的故障时间空间预测具有更大的泛化能力。
3.本发明不仅在以往预测故障有无的基础上,还能够同时预测出故障发生时间及故障产生的空间位置;本发明将故障发生具体时间和空间位置预测两个任务联合训练,利用故障信息之间的相关性只需一个流程就可实现,不必设置两个模型分别进行,提高了效率;不仅限于预测信息系统的故障时间和空间,还可在此基础上增加不同输出而得到更全面的故障信息,该模型有利于扩展。
附图说明
图1为本发明的基于信息系统日志的故障时间空间预测方法的整体流程框图;
图2为本发明的基于信息系统日志的故障时间空间预测方法的第一神经网络预测会不会产生故障的模型训练流程和预测流程;
图3为本发明的基于信息系统日志的故障时间空间预测方法的第一神经网络中的故障日志和非故障日志数据标注方法流程框图;
图4为本发明的基于信息系统日志的故障时间空间预测方法的多任务学习模型的结构图;
图5为发明的基于信息系统日志的故障时间空间预测系统的结构框图。
具体实施方式
下面结合具体实施例和附图对本发明的技术方案进行进一步说明。
本发明提供了基于信息系统日志的故障时间空间预测方法,包括:
获取信息系统当前时刻t之前的n个时间段(t-n*Δt,t)内的时序日志数据x1,进行预处理,预处理过程包括数据清洗、字典构造、样本提取,其中数据清洗用于删除日志文本中一些无用的数字及符号,字典构造用于将日志中的特征字段进行数字编码,基于编码后的日志数据,提取其中的特征向量中的特征字段,并基于网络模型训练的需要,形成对应格式的训练集;
基于时序日志数据对未来一个时间段(t,t+Δt)内信息系统是否会产生故障进行判断:
若不会产生故障,则不进一步处理,并输出信息系统运行正常信息;
否则,进一步判断产生故障的具体时间点和空间位置,并输出包含时间空间信息的故障预警信息;
判断产生故障的具体时间点和空间位置采用多任务学习模型,对故障发生具体时间和位置这两个任务进行联合训练,并同时返回产生故障的具体时间点和空间位置。
本实施例中进行的网络设备故障预测研究主要是针对网络设备出现的渐变故障,比如由于非法操作、设备老化等原因导致的网络故障,此类故障一般具有渐变性,表现在日志中就是故障出现之前一般会跟随有相关的日志数据出现。基于渐变故障的此种特点,我们可以知道网络设备日志数据之间存在一定的关联关系,因此我们便可以对观测时间窗口中日志数据的特征统计信息作为特征项,进行网络设备故障的预测。
上述对未来一个时间段(t,t+Δt)内信息系统是否会产生故障进行判断,采用基于分类的故障预测模型获取,故障预测模型采用的算法包括但不限于关联规则算法、决策树、神经网络、贝叶斯网络、支持向量机;
基于分类的预测技术是通过对故障历史数据进行分析,对预测目标是否会发生故障或这个故障类型建立类标号,并统计对应的数据信息作为特征,按照这种方式来建立样本,那么对未知类标号样本的预测便转换为数据挖掘中的分类问题。数据分类是通过学习训练数据,根据训练数据中的特征来建立分类器,再利用分类器来对未知类别的样本进行预测。现在数据挖掘中已经有大量的分类算法并且得到了广泛的应用,主要包括决策树、贝叶斯、人工神经网络、支持向量机等,在本实施例中,采用第一深度神经网络,
第一深度神经网络的训练过程为:采集历史时序日志数据,提取第一特征向量,形成训练样本集,所述第一特征向量包括与日志级别关联的特征,并将日志级别为alert、error、warning且持续时间大于第一预设阈值的日志作为故障日志数据进行标注,日志级别为notice、info、debug的日志作为非故障数据进行标注,进行故障预测训练;
具体的,本实施例中将常规的包括alert、error、warning、notice、info、debug级别的告警日志划分为故障数据和非故障数据,除此以外,还对一些正常运行的参数记录日志等不属于alert、error、warning、notice、info、debug级别的日志划分为非故障日志,另外,对于alert、error、warning级别的告警日志还需要对日志持续时间进行判断,当alert、error、warning级别日志数据持续时间小于第一预设阈值时,也将其划分为非故障日志数据,在此基础上,进行第一深度神经网络的训练和预测;
具体的,基于第一特征向量,形成训练样本集,是指基于历史时序日志数据,以某一时刻t1为基准,以(t1-n*Δt,t1)时间段内的数据为输入数据,预测(t1,t1+Δt)时间段内是否会产生故障,t1是可以变动的,从而得到多个(t1-n*Δt,t1)时间段内的日志数据,其中,输入数据输入第一深度神经网络前,对输入数据进行标注,即根据已知的(t1,t1+Δt)内的日志数据x2是否为故障数据进行标注,标注方法包括:
首先判断日志数据x2中是否具有alert、error、warning等字段特征,若有,则由该日志数据中获取的告警持续时间判断持续时间是否大于第一预设阈值,若持续时间小于第一预设阈值,则判定该故障为闪电告警日志,输入数据的标注数据为非故障日志数据,若持续时间大于第一预设阈值,则标注数据为故障日志数据,
若日志数据x2是否具有notice、info、debug等字段特征,若有,则标注为非故障数据;
若日志数据x2中是否不具有alert、error、warning、notice、info、debug等字段特征,则由专家经验运维人员的实际经验或者产品说明书作为故障数据的分类标准,进行人工标注故障或者非故障,因为第一深度神经网络输入的日志包括正常运行的参数记录日志、各种告警日志等,所以对于不具有alert、error、warning、notice、info、debug等字段特征的日志数据,采用人工标注的方法;
第一深度神经网络的预测过程为:基于采集的(t-n*Δt,t)内的时序日志数据提取第一特征向量,输入第一深度神经网络,预测(t,t+Δt)的日志级别,若日志级别为warning级别以上,则确定(t,t+Δt)内会产生故障。
本实施例的第一预设阈值根据闪电告警日志的持续时间确定,第一预设阈值的设置为了过滤掉系统日志中存在的大量的闪断式告警日志,该类故障出现之后,在很短时间之内,系统会自动恢复并将该告警排除,所以可以认为该类型的故障对网络系统的健康情况影响不大,所以在本实施例中,对于故障的时间和空间预测,不对该类故障进行研究。
在本实施例中,先对日志数据预处理后先训练出一个能预测是否会产生故障的模型,实现了对非故障日志数据的判断筛选过程,其中的过滤筛选过程,包括了对非故障日志的过滤和告警持续时间短的闪断告警日志的过滤,有效提高故障空间和时间两个任务预测的效果,减小其对下一步预测准确性的影响。
上述多任务学习模型的训练过程为:采集历史故障时序日志数据,提取第二特征向量,形成训练样本集,所述第二特征向量包括与故障的位置和产生时间均关联的特征,并将故障的位置和产生时间作为标注数据进行训练;
所述多任务学习模型的预测过程为:基于采集的(t-n*Δt,t)内的时序日志数据中的故障数据,提取第二特征向量输入多任务学习模型,预测(t,t+Δt)发生故障的具体时间和位置。
其中,第一特征向量包括事件发生时间点、日志级别、事件持续时间、日志发生的空间信息、事件详情、操作者信息、ip地址、进程ID;
第二特征向量包括告警级别、故障名称、网元类型、网络设备性能、告警源、故障的定位信息、故障的产生时间和清除时间。
本实施例中的,多任务学习模型包括特征输入层、隐层、特定任务层、特征任务输出层,
特征输入层用于接收第二特征向量和标注数据,
隐层采用参数硬共享机制,用于实现两个任务的数据共享,
特定任务层包括第一特性隐藏层和第二特性隐藏层,分别用于学习故障的产生时间和位置的预测任务,
特征任务输出层包括第一任务输出层和第二任务输出层,分别用于分别输出产生故障的具体时间点和空间位置的预测值。
在实施中,基于多任务学习的神经网络中,各神经网络层的层连接方式均为全连接。技术人员可以根据使用需求,设置各神经网络层包含的神经元的个数。
本实施例中,多任务学习模型针对故障产生时间和空间位置两个预测任务,通过设置一个隐层,可以体现多个任务间的共性,通过针对每个任务设置对应的特定任务层,调整特定任务层的参数,可以使得每个任务的个性能够充分的展示。
多任务学习模型的训练过程还包括:基于特征输入层输入的第二特征向量,经过前向网络传播,特征任务输出层输出得到预测的故障的位置和产生时间,基于预设的多任务学习联合损失函数,获得任务输出层输出得到的预测值与该输入的第二特征向量携带的标注数据之间的多任务联合损失值,将多任务联合损失值进行反向传播,利用控制变量法进行模型参数优化,直至训练过程结束,获取最佳的网络参数。
预设的多任务学习联合损失函数lossjoint为:
Figure BDA0002548519230000081
其中,loss1为故障时间损失函数,loss2为故障空间损失函数。
在训练过程中,逐一将多任务学习模型的训练样本集输入待训练的多任务学习的网络模型中,利用多任务学习模型进行前向运算,得到训练样本即输入的第二特征向量预测输出的产生故障的位置和产生时间,之后,将预测输出的产生故障的位置和产生时间和输入数据携带的标注数据进行比较,获得多任务学习联合损失函数值,在本实施例中,两个任务分别采用了对应的交叉熵损失函数loss1和loss2,将预测输出的产生故障的位置和输入数据携带的标注数据中的故障的位置数据输入交叉熵损失函数loss1中得到位置损失函数值,将预测输出的产生故障的具体时间和输入数据携带的标注数据中的故障的时间数据输入交叉熵损失函数loss2得到时间损失函数值,然后根据这两个损失函数值判断多任务学习联合损失函数是否达到了预测精度,若是,则完成训练,否则,经网络模型中反向传播,并利用梯度下降法对基础多任务学习的神经网络模型的参数进行更新。
在本发明中的多任务学习模型多个任务的实现网络之间设置有共享部分即隐层,也设置有专门完成特定任务的专有分支即特定任务层和特征任务输出层。通过共享部分的引入,可以实现学习模型的模型结构的共享,简化深度学习模型的模型结构,与此同时,通过共享部分的引入,在进行模型训练时可以彼此影响,从而减少过度拟合的问题;故本实施例中通过共享部分的引入,具有模型整合度高及共享部分的特征不必重复计算的特点,与此同时执行该多任务学习模型的电子设备对信息系统日志的故障时间空间预测具有更大的泛化能力。
基于上述基于信息系统日志的故障时间空间预测方法,本发明还提供了基于信息系统日志的故障时间空间预测系统,包括:
时序日志数据获取模块,用于获取信息系统当前时刻t之前的n个时间段(t-n*Δt,t)内的时序日志数据x1,进行预处理;
故障预测模块,用于基于所述时序日志数据对未来一个时间段(t,t+Δt)内信息系统是否会产生故障进行判断,若不会产生故障,则不进一步处理,并输出信息系统运行正常信息;
故障时间空间预测模块,用于当故障预测模块预测结果为会产生故障时,进一步判断产生故障的具体时间点和空间位置,并输出包含时间空间信息的故障预警信息;所述判断产生故障的具体时间点和空间位置采用多任务学习模型,对故障发生具体时间和位置这两个任务进行联合训练,并同时返回产生故障的具体时间点和空间位置。
本发明不局限于上述具体的实施方式,本领域的普通技术人员从上述构思出发,不经过创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。

Claims (10)

1.基于信息系统日志的故障时间空间预测方法,其特征在于:包括:
获取信息系统当前时刻t之前的n个时间段(t-n*Δt,t)内的时序日志数据x1,进行预处理;
基于所述时序日志数据对未来一个时间段(t,t+Δt)内信息系统是否会产生故障进行判断:
若不会产生故障,则不进一步处理,并输出信息系统运行正常信息;
否则,进一步判断产生故障的具体时间点和空间位置,并输出包含时间空间信息的故障预警信息;
所述判断产生故障的具体时间点和空间位置采用多任务学习模型,对故障发生具体时间和位置这两个任务进行联合训练,并同时返回产生故障的具体时间点和空间位置。
2.根据权利要求1所述的基于信息系统日志的故障时间空间预测方法,其特征在于:所述基于所述时序日志数据获取未来一个时间段内信息系统是否会产生故障进行判断,采用基于分类的故障预测模型获取,故障预测模型采用的算法包括但不限于关联规则算法、决策树、神经网络、贝叶斯网络、支持向量机。
3.根据权利要求2所述的基于信息系统日志的故障时间空间预测方法,其特征在于:所述基于所述时序日志数据对未来一个时间段(t,t+Δt)内信息系统是否会产生故障进行判断,采用第一深度神经网络,
所述第一深度神经网络的训练过程为:采集历史时序日志数据,提取第一特征向量,形成训练样本集,所述第一特征向量包括与日志级别关联的特征,并将日志级别为alert、error、warning且持续时间大于第一预设阈值的日志作为故障日志数据进行标注,日志级别为notice、info、debug的日志作为非故障数据进行标注,进行故障预测训练;
所述第一深度神经网络的预测过程为:基于采集的(t-n*Δt,t)内的时序日志数据提取第一特征向量,输入第一深度神经网络,预测(t,t+Δt)的日志级别,若日志级别为warning级别以上,则确定(t,t+Δt)内会产生故障。
4.根据权利要求3所述的基于信息系统日志的故障时间空间预测方法,其特征在于:所述第一预设阈值根据闪电告警日志的持续时间确定。
5.根据权利要求1所述的基于信息系统日志的故障时间空间预测方法,其特征在于:所述多任务学习模型的训练过程为:采集历史故障时序日志数据,提取第二特征向量,形成训练样本集,所述第二特征向量包括与故障的位置和产生时间均关联的特征,并将故障的位置和产生时间作为标注数据进行训练;
所述多任务学习模型的预测过程为:基于采集的(t-n*Δt,t)内的时序日志数据中的故障数据,提取第二特征向量输入多任务学习模型,预测(t,t+Δt)发生故障的具体时间和位置。
6.根据权利要求5所述的基于信息系统日志的故障时间空间预测方法,其特征在于:所述第一特征向量包括事件发生时间点、日志级别、事件持续时间、日志发生的空间信息、事件详情;
第二特征向量包括告警级别、故障名称、网元类型、网络设备性能、告警源、故障的定位信息、故障的产生时间和清除时间。
7.根据权利要求5所述的基于信息系统日志的故障时间空间预测方法,其特征在于:所述多任务学习模型包括特征输入层、隐层、特定任务层、特征任务输出层,
所述特征输入层用于接收第二特征向量和标注数据,
所述隐层采用参数硬共享机制,用于实现两个任务的数据共享,
所述特定任务层包括第一特性隐藏层和第二特性隐藏层,分别用于学习故障的产生时间和位置的预测任务,
所述特征任务输出层包括第一任务输出层和第二任务输出层,分别用于分别输出产生故障的具体时间点和空间位置的预测值。
8.根据权利要求7所述的基于信息系统日志的故障时间空间预测方法,其特征在于:所述多任务学习模型的训练过程还包括:基于特征输入层输入的第二特征向量,经过前向网络传播,特征任务输出层输出得到预测的故障的位置和产生时间,基于预设的多任务学习联合损失函数,获得特征任务输出层输出得到的预测值与该输入的第二特征向量携带的标注数据之间的多任务联合损失值,将多任务联合损失值进行反向传播,利用控制变量法进行模型参数优化,直至训练过程结束,获取最佳的网络参数。
9.根据权利要求7所述的基于信息系统日志的故障时间空间预测方法,其特征在于:所述预设的多任务学习联合损失函数lossjoint为:
Figure FDA0002548519220000021
其中,loss1为故障时间的交叉熵损失函数,loss2为故障空间的交叉熵损失函数。
10.基于信息系统日志的故障时间空间预测系统,其特征在于:包括:
时序日志数据获取模块,用于获取信息系统当前时刻t之前的n个时间段(t-n*Δt,t)内的时序日志数据x1,进行预处理;
故障预测模块,用于基于所述时序日志数据对未来一个时间段(t,t+Δt)内信息系统是否会产生故障进行判断,若不会产生故障,则不进一步处理,并输出信息系统运行正常信息;
故障时间空间预测模块,用于当故障预测模块预测结果为会产生故障时,进一步判断产生故障的具体时间点和空间位置,并输出包含时间空间信息的故障预警信息;所述判断产生故障的具体时间点和空间位置采用多任务学习模型,对故障发生具体时间和位置这两个任务进行联合训练,并同时返回产生故障的具体时间点和空间位置。
CN202010568671.3A 2020-06-19 2020-06-19 基于信息系统日志的故障时间空间预测方法及系统 Active CN111858526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010568671.3A CN111858526B (zh) 2020-06-19 2020-06-19 基于信息系统日志的故障时间空间预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010568671.3A CN111858526B (zh) 2020-06-19 2020-06-19 基于信息系统日志的故障时间空间预测方法及系统

Publications (2)

Publication Number Publication Date
CN111858526A true CN111858526A (zh) 2020-10-30
CN111858526B CN111858526B (zh) 2022-08-16

Family

ID=72987738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010568671.3A Active CN111858526B (zh) 2020-06-19 2020-06-19 基于信息系统日志的故障时间空间预测方法及系统

Country Status (1)

Country Link
CN (1) CN111858526B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306981A (zh) * 2020-11-03 2021-02-02 广州科泽云天智能科技有限公司 一种面向高性能计算系统故障日志的故障预测方法
CN112488326A (zh) * 2020-11-09 2021-03-12 广州瀚信通信科技股份有限公司 基于5g核心网的智能运维故障预警方法及装置
CN112561167A (zh) * 2020-12-17 2021-03-26 北京百度网讯科技有限公司 出行推荐方法、装置、电子设备及存储介质
CN113866635A (zh) * 2021-12-01 2021-12-31 山东蓝湾新材料有限公司 化工设备中电机故障发生时间的确定方法
CN113902318A (zh) * 2021-10-15 2022-01-07 侯荣芹 一种质量管理系统及质量管理方法
CN114189428A (zh) * 2021-12-09 2022-03-15 中国电信股份有限公司 一种盒式波分系统的故障根因分析方法、系统与电子设备
CN114459575A (zh) * 2022-02-10 2022-05-10 佘以道 设定信息关联参考平台及方法
CN115334559A (zh) * 2022-08-19 2022-11-11 中国联合网络通信集团有限公司 网络检测方法、装置、设备及介质
CN117435441A (zh) * 2023-12-21 2024-01-23 国网山东省电力公司信息通信公司 一种基于日志数据的故障诊断方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080244314A1 (en) * 2007-03-28 2008-10-02 Yusaku Okamura Failure information delivery system, failure management server, mobile object communication apparatus, failure information delivery method, and program
JP2013020591A (ja) * 2011-07-14 2013-01-31 Kddi Corp 依存関係グラフ作成装置、障害発生箇所診断システム、障害発生箇所診断方法およびコンピュータプログラム
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
CN110198223A (zh) * 2018-02-27 2019-09-03 中兴通讯股份有限公司 网络故障预测方法、装置及设备、存储介质
CN110361176A (zh) * 2019-06-05 2019-10-22 华南理工大学 一种基于多任务特征共享神经网络的智能故障诊断方法
CN111190804A (zh) * 2019-12-28 2020-05-22 同济大学 一种云原生系统的多层次的深度学习日志故障检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080244314A1 (en) * 2007-03-28 2008-10-02 Yusaku Okamura Failure information delivery system, failure management server, mobile object communication apparatus, failure information delivery method, and program
JP2013020591A (ja) * 2011-07-14 2013-01-31 Kddi Corp 依存関係グラフ作成装置、障害発生箇所診断システム、障害発生箇所診断方法およびコンピュータプログラム
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
CN110198223A (zh) * 2018-02-27 2019-09-03 中兴通讯股份有限公司 网络故障预测方法、装置及设备、存储介质
CN110361176A (zh) * 2019-06-05 2019-10-22 华南理工大学 一种基于多任务特征共享神经网络的智能故障诊断方法
CN111190804A (zh) * 2019-12-28 2020-05-22 同济大学 一种云原生系统的多层次的深度学习日志故障检测方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306981A (zh) * 2020-11-03 2021-02-02 广州科泽云天智能科技有限公司 一种面向高性能计算系统故障日志的故障预测方法
CN112488326A (zh) * 2020-11-09 2021-03-12 广州瀚信通信科技股份有限公司 基于5g核心网的智能运维故障预警方法及装置
CN112561167A (zh) * 2020-12-17 2021-03-26 北京百度网讯科技有限公司 出行推荐方法、装置、电子设备及存储介质
CN112561167B (zh) * 2020-12-17 2023-10-24 北京百度网讯科技有限公司 出行推荐方法、装置、电子设备及存储介质
CN113902318A (zh) * 2021-10-15 2022-01-07 侯荣芹 一种质量管理系统及质量管理方法
CN113866635A (zh) * 2021-12-01 2021-12-31 山东蓝湾新材料有限公司 化工设备中电机故障发生时间的确定方法
CN114189428A (zh) * 2021-12-09 2022-03-15 中国电信股份有限公司 一种盒式波分系统的故障根因分析方法、系统与电子设备
CN114459575A (zh) * 2022-02-10 2022-05-10 佘以道 设定信息关联参考平台及方法
CN115334559A (zh) * 2022-08-19 2022-11-11 中国联合网络通信集团有限公司 网络检测方法、装置、设备及介质
CN117435441A (zh) * 2023-12-21 2024-01-23 国网山东省电力公司信息通信公司 一种基于日志数据的故障诊断方法及装置
CN117435441B (zh) * 2023-12-21 2024-04-26 国网山东省电力公司信息通信公司 一种基于日志数据的故障诊断方法及装置

Also Published As

Publication number Publication date
CN111858526B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN111858526B (zh) 基于信息系统日志的故障时间空间预测方法及系统
CN111914873B (zh) 一种两阶段云服务器无监督异常预测方法
KR101984730B1 (ko) 서버 장애 자동 예측 시스템 및 자동 예측 방법
CN108038049B (zh) 实时日志控制系统及控制方法、云计算系统及服务器
CN109489977B (zh) 基于KNN-AdaBoost的轴承故障诊断方法
CN110210169B (zh) 一种基于lstm的盾构机故障预测方法
CN117421684B (zh) 基于数据挖掘和神经网络的异常数据监测与分析方法
CN112416643A (zh) 无监督异常检测方法与装置
CN109992484B (zh) 一种网络告警相关性分析方法、装置和介质
CN112906775B (zh) 一种设备故障预测方法及系统
CN118094437B (zh) 工厂自动化和数字化的工程环境的增强方法
CN102083087A (zh) 一种主客观模型结合的话务量异常检测方法
CN117993894B (zh) 基于人工智能的轨道交通运维状态数据处理方法及系统
CN116520806A (zh) 一种工业系统智能故障诊断系统及其方法
CN116089218A (zh) 基于Kubernetes的历史数据和趋势分析的动态基线告警方法及系统
Weiss Predicting telecommunication equipment failures from sequences of network alarms
CN117667495B (zh) 一种关联规则与深度学习集成的应用系统故障预测方法
CN117648858A (zh) 机车状态评估方法、装置、设备和介质
CN110958273B (zh) 一种基于分布式数据流的区块链检测系统
CN115883424B (zh) 一种高速骨干网间流量数据预测方法及系统
Kumar et al. Rule extraction using machine learning classifiers for complex event processing
CN116708152A (zh) 基于机器学习的无线网路设备故障根因定位方法及系统
CN115829160A (zh) 一种时序异常预测方法、装置、设备及存储介质
Sharma et al. The fundamentals and strategies of maintenance, repair, and overhaul (MRO) in Industry 4.0
CN114265891A (zh) 基于多源数据融合的智慧车间系统、方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant