CN115858275A - 平台状态监控方法及装置、电子设备及存储介质 - Google Patents

平台状态监控方法及装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115858275A
CN115858275A CN202111122222.7A CN202111122222A CN115858275A CN 115858275 A CN115858275 A CN 115858275A CN 202111122222 A CN202111122222 A CN 202111122222A CN 115858275 A CN115858275 A CN 115858275A
Authority
CN
China
Prior art keywords
data
alarm
monitoring
platform
hidden danger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111122222.7A
Other languages
English (en)
Inventor
张强
高恩伟
闫岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202111122222.7A priority Critical patent/CN115858275A/zh
Publication of CN115858275A publication Critical patent/CN115858275A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请公开了一种平台状态监控方法及装置、电子设备及存储介质。所述平台状态监控方法包括:根据监控指标,监控目标平台得到时间序列数据;当所述时间序列数据不满足平稳条件时,对所述时间序列数据进行N次差分处理,得到满足所述平稳条件的平稳数据;其中,所述N为正整数;当所述平稳数据为非周期性数据时,将所述平稳数据输入到第一神经网络模型进行状态趋势预测得到输出结果,其中,所述输出结果,指示是否存在所述目标平台的告警和/或隐患。通过非周期数据的挖掘,使用神经网络模型确定出未来的趋势,从而实现了基于当前监控数据预判被监控的目标平台的未来状态,具有监控全面性更高和监控精度更高的特点。

Description

平台状态监控方法及装置、电子设备及存储介质
技术领域
本申请涉及网络技术领域,尤其涉及一种平台状态监控方法及装置、电子设备及存储介质。
背景技术
相关技术对大数据任务调度平台的监控的,大多都是只关注监控的实时性、确定性及稳定性方面,即都仅仅关注平台当前的运行状态。例如,有的监控方法为:采集数据环境和任务调度的各种指标,根据采集的指标进行监控,无法对平台但接下来的运行进行预测,从而导致监控不够全面的问题。
还有的相关技术,针对特定的场景进行监控,基于监控阈值进行告警等,但这样静态设置的监控阈值的监控精确度并不高。
发明内容
本申请实施例提供了一种平台状态监控方法及装置、电子设备及存储介质,以解决相关技术中监控不够全面和/或监控精确度不高的问题。
本公开实施例第一方面提供一种平台状态监控方法,所述方法包括:
根据监控指标,监控目标平台得到时间序列数据;
当所述时间序列数据不满足平稳条件时,对所述时间序列数据进行N次差分处理,得到满足所述平稳条件的平稳数据;其中,所述N为正整数;
当所述平稳数据为非周期性数据时,将所述平稳数据输入到第一神经网络模型进行状态趋势预测得到输出结果,其中,所述输出结果,指示是否存在所述目标平台的告警和/或隐患。
基于上述方案,所述方法还包括:
当所述平稳数据在时域不具有周期性变化规律时,对所述平稳数据进行小波变换得到小波变换后的变换数据;
当所述变换数据在时域不具有周期性变化规律时,将所述变换数据对应的所述平稳数据确定为所述非周期性数据。
基于上述方案,所述方法还包括:
当所述输出结果指示存在满足第一告警条件的告警时,输出告警信息;
和/或,
当所述输出结果指示存在隐患时,将所述隐患的隐患信息写入监控报告,并在当前监控周期结束前输出所述监控报告。
基于上述方案,所述隐患信息指示以下至少之一:
隐患类型;
隐患的预测变化趋势;
隐患的风险评估;
隐患发生带来的负面后果。
基于上述方案,所述方法还包括:
将所述时间序列数据输入告警插件,其中,所述时间序列数据,用于供所述告警插件确定所述时间序列数据是否满足第二告警条件;
当所述时间序列数据满足所述第二告警条件时,所述告警插件输出告警信息。
基于上述方案,所述方法还包括:
将所述时间序列数据输入到第二神经网络模型进行分类预测得到分类结果;
当所述分类结果为满足第三告警条件时,输出告警信息。
基于上述方案,所述方法还包括:
当所述分类结果为不满足所述第三告警条件时,将不满足所述第三告警条件的所述时间序列数据写入历史数据库。
基于上述方案,所述方法还包括:
当存在告警时,将导致所述告警的所述时间序列数据输入到第三神经网络模型确定目标组件;其中,所述目标组件包括:所述目标平台内发生所述故障的故障组件;或者,所述目标组件包括:发生所述故障的故障组件和所述故障组件的关联组件;
通过重启所述目标组件排除所述故障。
基于上述方案,所述方法还包括:
在重启所述目标组件之后,确定是否重启发生所述故障的任务;
根据所述任务的执行结果,更新故障数据库,其中,所述故障数据库记录有重启可排除的故障信息和/或重启不能排除的故障信息。
基于上述方案,所述目标平台包括:任务调度平台;
所述时间序列数据包括以下至少之一:
所述目标平台内工作节点的健康状态信息;
所述目标平台内运行在所述工作节点上的工作组件的状态信息;
所述目标平台执行工作任务的作业状态信息。
本公开实施例第二方面提供一种平台状监控装置,所述装置包括:
监控模块,用于根据监控指标,监控目标平台得到时间序列数据;
得到模块,用于当所述时间序列数据不满足平稳条件时,对所述时间序列数据进行N次差分处理,得到满足所述平稳条件的平稳数据;其中,所述N为正整数;
第一预测模块,用于当所述平稳数据为非周期性数据时,将所述平稳数据输入到第一神经网络模型进行状态趋势预测得到输出结果,其中,所述输出结果,指示是否存在所述目标平台的告警和/或隐患。
基于上述方案,所述装置还包括:
变换模块,用于当所述平稳数据在时域不具有周期性变化规律时,对所述平稳数据进行小波变换得到小波变换后的变换数据;
确定模块,用于当所述变换数据在时域不具有周期性变化规律时,将所述变换数据对应的所述平稳数据确定为所述非周期性数据。
基于上述方案,所述装置还包括:
第一输出模块,用于当所述输出结果指示存在满足第一告警条件的告警时,输出告警信息;
和/或,
第一写入模块,用于当所述输出结果指示存在隐患时,将所述隐患的隐患信息写入监控报告,并在当前监控周期结束前输出所述监控报告。
基于上述方案,所述隐患信息指示以下至少之一:
隐患类型;
隐患的预测变化趋势;
隐患的风险评估;
隐患发生带来的负面后果。
基于上述方案,所述装置还包括:
输入模块,用于将所述时间序列数据输入告警插件,其中,所述时间序列数据,用于供所述告警插件确定所述时间序列数据是否满足第二告警条件;
告警模块,用于当所述时间序列数据满足所述第二告警条件时,所述告警插件输出告警信息。
基于上述方案,所述装置还包括:
第二预测模块,用于将所述时间序列数据输入到第二神经网络模型进行分类预测得到分类结果;
第二输出模块,用于当所述分类结果为满足第三告警条件时,输出告警信息。
基于上述方案,所述装置还包括:
第二写入模块,用于当所述分类结果为不满足所述第三告警条件时,将不满足所述第三告警条件的所述时间序列数据写入历史数据库。
基于上述方案,所述装置还包括:
第一确定模块,用于当存在告警时,将导致所述告警的所述时间序列数据输入到第三神经网络模型确定目标组件;其中,所述目标组件包括:所述目标平台内发生所述故障的故障组件;或者,所述目标组件包括:发生所述故障的故障组件和所述故障组件的关联组件;
故障排除模块,用于通过重启所述目标组件排除所述故障。
基于上述方案,所述装置还包括:
第二确定模块,用于在重启所述目标组件之后,确定是否重启发生所述故障的任务;
更新模块,用于根据所述任务的执行结果,更新故障数据库,其中,所述故障数据库记录有重启可排除的故障信息和/或重启不能排除的故障信息。
基于上述方案,所述目标平台包括:任务调度平台;
所述时间序列数据包括以下至少之一:
所述目标平台内工作节点的健康状态信息;
所述目标平台内运行在所述工作节点上的工作组件的状态信息;
所述目标平台执行工作任务的作业状态信息。
本公开实施例第三方面提供一种电子设备,包括:
存储器;
处理器,与所述存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,能够实现前述任意第一方面或第二方面任意技术方案提供的平台状态监控方法。
本公开实施例第四方面提供一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,实现第一方面或第二方面任意技术方案提供的平台状态监控方法。
本公开实施例提供的技术方案,对目标平台进行监控将得到时间序列数据,从时间序列数据中选择出不满足稳定条件的数据,这些数据可能为异常波动数据的概率就更高,并进一步通过确定是否有周期性变化规律,即确定是否周期性的波动,选择出非周期性数据,输入到无需设置静态阈值的第一神经网络,由第一神经网络判断是否需要告警和/或出现隐患,如此,通过非周期性变化的突发数据的挖掘,使用神经网络模型确定出未来的趋势,从而实现了基于当前监控数据预判被监控的目标平台的未来状态,具有监控全面性更高和监控精度更高的特点。
附图说明
图1为本申请实施例提供的一种平台状态监控方法的流程示意图;
图2为本申请实施例提供的一种平台状态监控方法的流程示意图;
图3为本申请实施例提供的一种平台状态监控方法的流程示意图;
图4为本申请实施例提供的一种平台状态监控方法的流程示意图;
图5为本申请实施例提供的一种平台状态监控方法的流程示意图;
图6为本申请实施例提供的一种平台状态监控方法的流程示意图;
图7是本申请实施例提供的一种平台状态监控装置的结构示意图;
图8是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更加详尽地了解本申请的特点与技术内容,下面结合附图对本申请的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请。
如图1所示,本公开实施例提供一种平台状态监控方法,所述方法包括:
S110:根据监控指标,监控目标平台得到时间序列数据;
S120:当所述时间序列数据不满足平稳条件时,对所述时间序列数据进行N次差分处理,得到满足所述平稳条件的平稳数据;其中,所述N为正整数;
S130:当所述平稳数据为非周期性数据时,将所述平稳数据输入到第一神经网络模型进行状态趋势预测得到输出结果,其中,所述输出结果,指示是否存在所述目标平台的告警和/或隐患。
该方法可应用于目标平台内,例如,目标平台内配置监控组件,该监控组件根据监控指标获取目标平台在不同时间点的状态数据,从而按照时间先后排序的时间序列数据。
所述时间序列数据不满足平稳条件可包括以下至少之一:
时间序列数据的波动范围小于或等于最大波动值;
时间序列数据的所有数据值都位于预设范围内。
当然以上仅仅是举例描述时间序列数据不满足平稳条件。
在一些实施例中,在确定时间序列数据是否满足平稳条件之前,会对时间序列数据进行数据预处理,该数据预处理可包括:数据归一化处理和/或去均值处理等预处理操作。
对预处理操作之后的时间序列数据进行是否满足平稳条件的判断。
对所述时间序列数据进行一次或多次差分处理,在每次差分处理之后,都对差分处理之后得到的差分序列数据是否满足平稳条件,若满足平稳条件则停止差分处理,若不满足平稳条件则可以继续在当前差分序列数据的基础上进行下一次差分处理,直至得到的差分序列数据满足平稳条件为止。
若当所述时间序列数据不平稳条件时,确定所述时间序列数据的波动在时域上是否具有周期性,若没有周期性,则可能说明这种波动是需要特别注意的异常波动,这种异常波动也许可能会导致目标平台即便当前不出现故障,可能会在接下来的时间内出现故障。
将这种非周期性数据的所述平稳数据输入到所述第一神经网络模型进行未来趋势预测,从而得到输出结果。该输出结果能够指示目标平台目前是否需要告警或者当前时刻以后的一段时间内是否存在隐患。
第一神经网络是使用大量训练样本预先训练的自学习模型,相对于使用静态的阈值进行告警和/或隐患判断,具有精确性更高的特点。
在一些实施例中,所述方法还包括:
当所述平稳数据在时域不具有周期性变化规律时,对所述平稳数据进行小波变换得到小波变换后的变换数据;
当所述变换数据在时域不具有周期性变化规律时,将所述变换数据对应的所述平稳数据确定为所述非周期性数据。
若所述平稳数据依然是时间序列数据,从而根据平稳数据在时域上的变化规律,可以确定该平稳数据的数据值是否在时域上存在周期性变化的规律,若该平稳数据不具有周期性变化规律时,就可以确定出该平稳数据为不具有周期性变化规律的第一类非周期性数据。在S130中输入到第一神经网络的模型的非周期性数据可以是该第一类非周期性数据。
但是在本公开实施例中为了进一步挖掘时间序列数据在时域上的不同层次上呈现的周期性规律,针对第一类非周期性数据会进行小波变换,得到变换数据,通过小波变换可以在更细粒度的时频窗口内观察该平稳数据在时域上是否具有周期性变化规律,若变换数据还不具有周期性变化规律,则说明该平稳数据为第二类非周期性数据。
在本公开实施例中,将第二类非周期性数据输入到第一神经网络模型,可以供第一神经网络对在更细小尺度上不具有周期性变化规律的平稳数据进行数据分析,得到更精确的输出结果。
在一个实施例中,所述方法还包括:
当所述输出结果指示存在满足第一告警条件的告警时,输出告警信息;
和/或,
当所述输出结果指示存在隐患时,将所述隐患的隐患信息写入监控报告,并在当前监控周期结束前输出所述监控报告。
在一个实施例,输出告警信息可以由触发安装在目标平台内的告警插件来实现。
例如,告警插件预先设置有告警配置,需要告警时,根据该告警配置输出告警信息。告警方式可包括:邮件告警、微信告警、钉钉告警或者输出告警音。所述告警配置可指示以下内容至少之一:
告警方式;
告警等级。
示例性地,告警方式为微信,则告警配置中还记录有告警信息的接收微信账号。若告警方式为邮件,则告警配置中记录有接收告警邮件的邮箱地址。
所述告警等级可根据当前触发告警的故障和/或隐患的严重程度来设置。故障的严重程度与所述告警等级正相关。隐患发生的概率值与告警等级正相关。
在另一个实施例中,确定出存在隐患时,将该隐患的隐患信息写入到监控报告。该监控报告可以监控日志的形式呈现或者预设报告格式呈现。
所述隐患信息被运维人员看到之后,可以知晓目标平台是否存在安全隐患或者故障隐患等。
所述监控报告还可以传输到故障分析设备,由故障分析设备读取之后关注目标平台的隐患。
在一些实施例中,还可以根据告警和隐患的指示,调整监控指标内针对告警和/或隐患的监控参数,例如,提升告警和/或隐患关联的监控指标的监控频率等。
在一些实施例中,所述隐患信息指示以下至少之一:
隐患类型;
隐患的预测变化趋势;
隐患的风险评估;
隐患发生带来的负面后果。
将隐患信息写入到监控报告中,则运维人员可以通过监控报告就知晓当前目标平台是否存在隐患,且该隐患的预测变化确实、风险值以及可能带来的灾难性后果等。
如图2所示,所述方法还包括:
S210:将所述时间序列数据输入告警插件,其中,所述时间序列数据,用于供所述告警插件确定所述时间序列数据是否满足第二告警条件;
S220:当所述时间序列数据满足所述第二告警条件时,所述告警插件输出告警信息。
在本公开实施例中,还会直接将所述时间序列数据输入到告警插件,该告警插件可为安装在目标平台具有预警作用的任意插件,示例性地,该告警插件可包括:grafana插件等。
该告警插件可以直接对时间序列的数据进行告警判断,若满足第二告警条件,则输出告警信息。
示例性地,告警插件将所述时间序列数据与告警阈值进行比较,若比较的结果确定出时间序列数据满足第二告警条件,则输出告警信息。
与此同时,时间序列数据还会输入到第二神经网络模型进行分类预测,得到分类结果,若分类结果指示出现故障则认为满足第三告警条件,同样的输出告警信息。
若通过第一神经网络和第二神经网络的输出结果,确定出满足了对应到的告警条件,都可以触发目标平台内的告警插件来进行告警,如此,就可以共用目标平台的告警插件和告警插件内的一套告警配置输出告警信息。
在一个实施例中,当所述分类结果为不满足所述第三告警条件时,将不满足所述第三告警条件的所述时间序列数据写入历史数据库。
所述历史数据库中写入有训练所述第二神经网络模型的分类预测的负样本数据。在另一个实施例中,还可以将满足第三告警条件的时间序列数据写入历史数据库,该满足第三告警条件的时间序列数据可以作为训练第二神经网络的正样本数据。
如此,结合目标平台的历史监控数据来训练第二神经网络,可以使得第二神经网络反复经过多次训练之后得到的输出结果越来越精确。
在一些实施例中,如图3所示,所述方法还包括:
S310:当存在告警时,将导致所述告警的所述时间序列数据输入到第三神经网络模型确定目标组件;其中,所述目标组件包括:所述目标平台内发生所述故障的故障组件;或者,所述目标组件包括:发生所述故障的故障组件和所述故障组件的关联组件;
S320:通过重启所述目标组件排除所述故障。
在本公开实施例中,若目标平台内存在告警时,将导致告警的时间序列数据输入到第三神经网络模型,第三神经网络经过一些列运算之后将确定出导致故障或者发生故障的目标组件。此处的告警可为满足上述任意一个告警条件产生的告警,例如,第一神经网络输出的告警、第二神经网络输出的告警和/或告警插件确定的告警。
该目标组件可为一个或多个。
在另一个实施例中,该目标组件可包括:发生故障的故障组件及与所述故障组件密切关联的关联组件。
目标平台通过重启该目标组件,在目标重启的过程中会释放掉目标组件的当前配置,且在重新启动过程中会重新初始化目标组件等,如此可以自动排除一部分故障。
如此,目标平台可以根据第三神经网络确定的目标组件实现轻微故障的自动排除。
如图3所示,所述方法还包括:
S330:在重启所述目标组件之后,确定是否重启发生所述故障的任务;
S340:根据所述任务的执行结果,更新故障数据库,其中,所述故障数据库记录有重启可排除的故障信息和/或重启不能排除的故障信息。
在重启目标组件之后,继续执行故障时执行失败的任务,通过任务的重启,可以根据重启任务的执行结果,确定是否通过目标组件的重启排除了目标平台的故障。
在一些实施例中,所述故障数据库内的故障信息,用于训练所述第三神经网络模型。
在一些实施例中,所述目标平台包括:任务调度平台;
所述时间序列数据包括以下至少之一:
所述目标平台内工作节点的健康状态信息;
所述目标平台内运行在所述工作节点上的工作组件的状态信息;
所述目标平台执行工作任务的作业状态信息。
所述任务调度平台可为大数据任务调度平台。
所述工作节点可包括以下任意节点的一项或多项:
名字节点(NameNode);
数据节点(Data Node);
区域服务器(Region Server);
资源管理节点(Resource Manager);
所述工作组件至少包括:中间件。
所述作恶也状态信息可包括以下至少之一:
作业数;
统计数;
作业提交时间等各项指标。
本公开实施例提供一种基于大数据调度任务的精细化监控方案,该方案的总体流程可如图4所示。本公布实施例提供的监控方案将使用到实时监控模块、智能化告警模块及自动化恢复模块;
按如下步骤搭建实时监控模块:
采用Cloudera Manager安装CDH版本的大数据集群,安装可视化工具grafana并将Cloudera Manager+CDH大数据集群管理平台自带的监控数据接入grafana。平台自带的监控数据指标包括各个大数据组件的各个节点的健康状态(例如HDFS组件的NameNode节点、DataNode节点;HBASE组件的RegionServer、HMaster;YARN组件的ResourceManager、NodeManager等等)、集群各机器节点的健康状态、中间件的状态、作业运行的状态信息(包括作业数、运行统计数、作业提交时间等等各项指标)等。
采用jmx_prometheus_javaagent工具自定义生成JMX接口,配合监控工具Promethus生成Metrics接口,接入grafana弥补Cloudera Manager自带监控数据的不足,根据实际大数据环境场景自定义监控指标,与自带监控指标汇聚生成Metrics监控指标。
使用grafana得到的Metrics监控指标进行可视化展示,grafana支持图表、日志等多种形式的可视化展示和操作,实现实时监控。
依据经验值设置各项监控指标的告警阈值,使用AlertManager插件进行告警,支持微信、邮箱、钉钉等多种形式,由于告警阈值是事先静态设置好的,所以称为动态告警。
按如下步骤搭建智能化告警模块:
采用神经网络对历史监控数据进行训练得到模型,用训练好的模型对Metrics监控数据进行二分类来判断是否满足告警条件,如果满足条件则触发AlertManager进行告警,不满足就将数据加入历史数据库作为神经网络模型的训练集。由于告警的阈值是经过神经网络模型训练得到的,并非事先设置的,而且是变化的,因此称为静态告警。
与此同时,还同步进行的还有对各项监控指标数据的趋势预测,具体流程如图5所示,可包括:
先将历史监控指标的时间序列数据进行归一化和去均值等数据预处理操作;
经过波动性检测判断信号是否平稳,如果不平稳采用一阶差分,再次检测是否平稳,如果不平稳采用二阶差分,三阶差分直至达到平稳或相对平稳;
然后进行周期性检测,如果判定为周期性数据,进行小波变换后再进行周期预测;
如果判定不为周期性预测,则进行趋势预测,趋势预测的预测方式包括但不限于:有线性趋势预测法,非线性趋势预测法或者自回归预测法等。
将上一步得到的趋势预测的数据作为输入,经过神经网络模型进行分类,得到的结果作为判断是否满足动态告警条件和是否存在隐患的依据。
先判断是否满足动态告警条件,如果满足条件就触发动态告警;
如果不满足条件再判断是否存在隐患,如果存在隐患就纳入每日监控报告,给出详细的预测趋势图和隐患可能造成的后果,对隐患进行风险评估;
如果未发现隐患就输出到历史监控数据库。
在每日的最后时期会生成每日监控报告,对当日的重要监控指标进行收集和整理,包括节点的健康状况、调度任务执行情况、故障或隐患的生成报告等。
如图6所示,按如下步骤搭建自动化恢复模块:
监测到故障后,进行静态告警或者动态告警;
采用神经网络对故障处理历史数据进行训练得到模型,用训练好的模型对发生故障的指标数据进行处理,先判断是否满足故障组件及其关联组件重启条件,如果满足就进行重启操作,如果不满足进入下一步骤;
经过神经网络模型判断是否满足重启失败任务条件;
如果满足条件就重启失败任务及其关联任务,如果不满足则纳入故障处理历史数据库;
重启失败任务后会进行进一步的检测是否成功恢复,如果不成功,则更新故障处理历史数据库,结束流程,如果成功,直接结束流程。
上述技术方案的提出,可基于大数据调度任务的监控告警的触发阈值过于依赖经验值,并不一定适合实际的大数据环境,本发明所采用的智能化告警模块借助神经网络进行动态告警,并对各项指标数据进行趋势预测,深度挖掘潜在隐患。
基于大数据调度任务的监控方案一般只提供实时监控的功能,极少考虑到自动恢复一些小故障以减小损失,本公开实施例所采用的自动化恢复模块借助神经网络模型对故障数据进行分类判别,对符合条件的特定故障进行自主恢复。
如图7所示,本公开实施例提供一种平台状监控装置,所述装置包括:
监控模块110,用于根据监控指标,监控目标平台得到时间序列数据;
得到模块120,用于当所述时间序列数据不满足平稳条件时,对所述时间序列数据进行N次差分处理,得到满足所述平稳条件的平稳数据;其中,所述N为正整数;
第一预测模块130,用于当所述平稳数据为非周期性数据时,将所述平稳数据输入到第一神经网络模型进行状态趋势预测得到输出结果,其中,所述输出结果,指示是否存在所述目标平台的告警和/或隐患。
在一些实施例中,所述监控模块110、所述得到模块120、及所述第一预测模块130可均为程序模块,该程序模块被处理器执行之后,能够实现上述各个模块的功能。
在另一些实施例中,所述监控模块110、所述得到模块120、及所述第一预测模块130可均为软硬结合模块;所述软硬结合模块包括但不限于:各种可编程阵列;所述现场可编程阵列包括但不限于:现场可编程阵列和/或复杂可编程阵列。
在还有一些实施例中所述监控模块110、所述得到模块120、及所述第一预测模块130可均为纯硬件模块;所述纯硬件模块包括但不限于:专用集成电路。
在一些实施例中,所述装置还包括:
变换模块,用于当所述平稳数据在时域不具有周期性变化规律时,对所述平稳数据进行小波变换得到小波变换后的变换数据;
确定模块,用于当所述变换数据在时域不具有周期性变化规律时,将所述变换数据对应的所述平稳数据确定为所述非周期性数据。
在一些实施例中,所述装置还包括:
第一输出模块,用于当所述输出结果指示存在满足第一告警条件的告警时,输出告警信息;
和/或,
第一写入模块,用于当所述输出结果指示存在隐患时,将所述隐患的隐患信息写入监控报告,并在当前监控周期结束前输出所述监控报告。
在一些实施例中,所述隐患信息指示以下至少之一:
隐患类型;
隐患的预测变化趋势;
隐患的风险评估;
隐患发生带来的负面后果。
在一些实施例中,所述装置还包括:
输入模块,用于将所述时间序列数据输入告警插件,其中,所述时间序列数据,用于供所述告警插件确定所述时间序列数据是否满足第二告警条件;
告警模块,用于当所述时间序列数据满足所述第二告警条件时,所述告警插件输出告警信息。
在一些实施例中,所述装置还包括:
第二预测模块,用于将所述时间序列数据输入到第二神经网络模型进行分类预测得到分类结果;
第二输出模块,用于当所述分类结果为满足第三告警条件时,输出告警信息。
在一些实施例中,所述装置还包括:
第二写入模块,用于当所述分类结果为不满足所述第三告警条件时,将不满足所述第三告警条件的所述时间序列数据写入历史数据库。
在一些实施例中,所述装置还包括:
第一确定模块,用于当存在告警时,将导致所述告警的所述时间序列数据输入到第三神经网络模型确定目标组件;其中,所述目标组件包括:所述目标平台内发生所述故障的故障组件;或者,所述目标组件包括:发生所述故障的故障组件和所述故障组件的关联组件;
故障排除模块,用于通过重启所述目标组件排除所述故障。
在一些实施例中,所述装置还包括:
第二确定模块,用于在重启所述目标组件之后,确定是否重启发生所述故障的任务;
更新模块,用于根据所述任务的执行结果,更新故障数据库,其中,所述故障数据库记录有重启可排除的故障信息和/或重启不能排除的故障信息。
在一些实施例中,所述目标平台包括:任务调度平台;
所述时间序列数据包括以下至少之一:
所述目标平台内工作节点的健康状态信息;
所述目标平台内运行在所述工作节点上的工作组件的状态信息;
所述目标平台执行工作任务的作业状态信息。
如图8所示,本公开实施例提供一种电子设备,其特征在于,所述电子设备包括:
存储器;
处理器,与所述存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,能够实现前述任意实施例提供的平台状态监控方法,例如执行如图1至图6任意所示的平台状态监控方法。
该电子设备可为前述的终端设备和/或服务平台中的服务器。
如图8所示,该电子设还可包括网络接口,该网络接口可用于通过网络和对端设备进行交互。
本公开实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,能够实现前述任意实施例提供的平台状态监控方法,例如执行如图1至图6任意所示的平台状态监控方法。
本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以N个或N个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (22)

1.一种平台状态监控方法,其特征在于,所述方法包括:
根据监控指标,监控目标平台得到时间序列数据;
当所述时间序列数据不满足平稳条件时,对所述时间序列数据进行N次差分处理,得到满足所述平稳条件的平稳数据;其中,所述N为正整数;
当所述平稳数据为非周期性数据时,将所述平稳数据输入到第一神经网络模型进行状态趋势预测得到输出结果,其中,所述输出结果,指示是否存在所述目标平台的告警和/或隐患。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述平稳数据在时域不具有周期性变化规律时,对所述平稳数据进行小波变换得到小波变换后的变换数据;
当所述变换数据在时域不具有周期性变化规律时,将所述变换数据对应的所述平稳数据确定为所述非周期性数据。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
当所述输出结果指示存在满足第一告警条件的告警时,输出告警信息;
和/或,
当所述输出结果指示存在隐患时,将所述隐患的隐患信息写入监控报告,并在当前监控周期结束前输出所述监控报告。
4.根据权利要求2所述的方法,其特征在于,所述隐患信息指示以下至少之一:
隐患类型;
隐患的预测变化趋势;
隐患的风险评估;
隐患发生带来的负面后果。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述时间序列数据输入告警插件,其中,所述时间序列数据,用于供所述告警插件确定所述时间序列数据是否满足第二告警条件;
当所述时间序列数据满足所述第二告警条件时,所述告警插件输出告警信息。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述时间序列数据输入到第二神经网络模型进行分类预测得到分类结果;
当所述分类结果为满足第三告警条件时,输出告警信息。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
当所述分类结果为不满足所述第三告警条件时,将不满足所述第三告警条件的所述时间序列数据写入历史数据库。
8.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
当存在告警时,将导致所述告警的所述时间序列数据输入到第三神经网络模型确定目标组件;其中,所述目标组件包括:所述目标平台内发生所述故障的故障组件;或者,所述目标组件包括:发生所述故障的故障组件和所述故障组件的关联组件;
通过重启所述目标组件排除所述故障。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
在重启所述目标组件之后,确定是否重启发生所述故障的任务;
根据所述任务的执行结果,更新故障数据库,其中,所述故障数据库记录有重启可排除的故障信息和/或重启不能排除的故障信息。
10.根据权利要求1所述的方法,其特征在于,所述目标平台包括:任务调度平台;
所述时间序列数据包括以下至少之一:
所述目标平台内工作节点的健康状态信息;
所述目标平台内运行在所述工作节点上的工作组件的状态信息;
所述目标平台执行工作任务的作业状态信息。
11.一种平台状监控装置,其特征在于,所述装置包括:
监控模块,用于根据监控指标,监控目标平台得到时间序列数据;
得到模块,用于当所述时间序列数据不满足平稳条件时,对所述时间序列数据进行N次差分处理,得到满足所述平稳条件的平稳数据;其中,所述N为正整数;
第一预测模块,用于当所述平稳数据为非周期性数据时,将所述平稳数据输入到第一神经网络模型进行状态趋势预测得到输出结果,其中,所述输出结果,指示是否存在所述目标平台的告警和/或隐患。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
变换模块,用于当所述平稳数据在时域不具有周期性变化规律时,对所述平稳数据进行小波变换得到小波变换后的变换数据;
确定模块,用于当所述变换数据在时域不具有周期性变化规律时,将所述变换数据对应的所述平稳数据确定为所述非周期性数据。
13.根据权利要求11或12所述的装置,其特征在于,所述装置还包括:
第一输出模块,用于当所述输出结果指示存在满足第一告警条件的告警时,输出告警信息;
和/或,
第一写入模块,用于当所述输出结果指示存在隐患时,将所述隐患的隐患信息写入监控报告,并在当前监控周期结束前输出所述监控报告。
14.根据权利要求12所述的装置,其特征在于,所述隐患信息指示以下至少之一:
隐患类型;
隐患的预测变化趋势;
隐患的风险评估;
隐患发生带来的负面后果。
15.根据权利要求12所述的装置,其特征在于,所述装置还包括:
输入模块,用于将所述时间序列数据输入告警插件,其中,所述时间序列数据,用于供所述告警插件确定所述时间序列数据是否满足第二告警条件;
告警模块,用于当所述时间序列数据满足所述第二告警条件时,所述告警插件输出告警信息。
16.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二预测模块,用于将所述时间序列数据输入到第二神经网络模型进行分类预测得到分类结果;
第二输出模块,用于当所述分类结果为满足第三告警条件时,输出告警信息。
17.根据权利要求16所述的装置,其特征在于,所述装置还包括:
第二写入模块,用于当所述分类结果为不满足所述第三告警条件时,将不满足所述第三告警条件的所述时间序列数据写入历史数据库。
18.根据权利要求11至16任一项所述的装置,其特征在于,所述装置还包括:
第一确定模块,用于当存在告警时,将导致所述告警的所述时间序列数据输入到第三神经网络模型确定目标组件;其中,所述目标组件包括:所述目标平台内发生所述故障的故障组件;或者,所述目标组件包括:发生所述故障的故障组件和所述故障组件的关联组件;
故障排除模块,用于通过重启所述目标组件排除所述故障。
19.根据权利要求18所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于在重启所述目标组件之后,确定是否重启发生所述故障的任务;
更新模块,用于根据所述任务的执行结果,更新故障数据库,其中,所述故障数据库记录有重启可排除的故障信息和/或重启不能排除的故障信息。
20.根据权利要求11所述的装置,其特征在于,所述目标平台包括:任务调度平台;
所述时间序列数据包括以下至少之一:
所述目标平台内工作节点的健康状态信息;
所述目标平台内运行在所述工作节点上的工作组件的状态信息;
所述目标平台执行工作任务的作业状态信息。
21.一种电子设备,其特征在于,所述电子设备包括:
存储器;
处理器,与所述存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,能够实现权利要求1至10任一项提供平台状态监控方法。
22.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,能够实现权利要求1至10任一项提供的平台状态监控方法。
CN202111122222.7A 2021-09-24 2021-09-24 平台状态监控方法及装置、电子设备及存储介质 Pending CN115858275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111122222.7A CN115858275A (zh) 2021-09-24 2021-09-24 平台状态监控方法及装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111122222.7A CN115858275A (zh) 2021-09-24 2021-09-24 平台状态监控方法及装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115858275A true CN115858275A (zh) 2023-03-28

Family

ID=85653140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111122222.7A Pending CN115858275A (zh) 2021-09-24 2021-09-24 平台状态监控方法及装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115858275A (zh)

Similar Documents

Publication Publication Date Title
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
US10931511B2 (en) Predicting computer network equipment failure
EP3131234B1 (en) Core network analytics system
CN111309565B (zh) 告警处理方法、装置、电子设备以及计算机可读存储介质
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN114267178B (zh) 一种车站的智能运营维护方法及装置
US20150326446A1 (en) Automatic alert generation
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控系统
CN108306997B (zh) 域名解析监控方法及装置
CN114020581A (zh) 基于拓扑优化FP-Growth算法的告警关联方法
CN115529595A (zh) 一种日志数据的异常检测方法、装置、设备及介质
CN115061838A (zh) 一种故障检测方法及系统
WO2021197782A1 (en) Data processing for industrial machine learning
CN116611593A (zh) 用于预测空压机的故障的方法、设备和介质
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN111181785B (zh) 基于反馈式链路的监控方法和装置
CN112699048A (zh) 基于人工智能的程序故障处理方法、装置、设备及存储介质
CN116755992A (zh) 一种基于OpenStack云计算的日志分析方法及系统
CN115858275A (zh) 平台状态监控方法及装置、电子设备及存储介质
CN113656287B (zh) 软件实例故障的预测方法、装置、电子设备及存储介质
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
EP3706048A1 (en) Anomaly prediction in an industrial system
CN113037550B (zh) 一种服务故障监控方法、系统及计算机可读存储介质
CN114090411B (zh) 一种应用数据分析方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination