CN109639450B - 基于神经网络的故障告警方法、系统、计算机设备及介质 - Google Patents

基于神经网络的故障告警方法、系统、计算机设备及介质 Download PDF

Info

Publication number
CN109639450B
CN109639450B CN201811238310.1A CN201811238310A CN109639450B CN 109639450 B CN109639450 B CN 109639450B CN 201811238310 A CN201811238310 A CN 201811238310A CN 109639450 B CN109639450 B CN 109639450B
Authority
CN
China
Prior art keywords
target
fault
operation data
component
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811238310.1A
Other languages
English (en)
Other versions
CN109639450A (zh
Inventor
张宗勇
秦天欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An E Wallet Electronic Commerce Co Ltd
Original Assignee
Ping An E Wallet Electronic Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An E Wallet Electronic Commerce Co Ltd filed Critical Ping An E Wallet Electronic Commerce Co Ltd
Priority to CN201811238310.1A priority Critical patent/CN109639450B/zh
Publication of CN109639450A publication Critical patent/CN109639450A/zh
Application granted granted Critical
Publication of CN109639450B publication Critical patent/CN109639450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种基于神经网络的故障告警方法,包括:所述方法包括:获取目标设备的运行数据,所述运行数据至少包括第一运行数据和第二运行数据,所述第一运行数据包括所述目标设备中的多个目标组件的异常监测数据,所述第二运行数据包括所述多个目标组件的使用率数据;根据所述运行数据,定义预定时间节点的参数向量;根据所述参数向量和长短期记忆网络模型,计算生成每个目标组件的故障告警标识;及根据所述每个目标组件的故障告警标识输出故障告警信息。本发明实施例可以根据目标设备的多个目标组件的异常监测数据和使用率数据,基于长短期记忆网络模型得到每个目标组件的故障告警信息,具有较高的故障告警准确性和自动化程度。

Description

基于神经网络的故障告警方法、系统、计算机设备及介质
技术领域
本发明实施例涉及神经网络领域,尤其涉及一种基于神经网络的故障告警方法、系统、计算机可读存储介质。
背景技术
随着互联网的发展,以云服务为核心的网络集群占据了越来越重要的位置。在基于云的服务中,正常运行时间应该是最为重要的运维指标之一。服务如果频繁地中断,不仅会导致正常使用的中断,还会对用户体验带来负面影响。因此,为了提供稳定的云服务,维持网络集群中各类设备(如,服务器、交换机等)始终处于有效运行状态,成为了重要的课题之一。
基于上述课题,业界提供了故障告警信息管理概念,主要目的在于当设备发生故障时,可以识别并预测相关故障发生的概率,从而排除故障以保证整个集群的安全、可靠运行。目前,本发明人所了解的一种故障告警信息管理方法为:基于关联性模型算法计算故障发生概率,并根据计算出的概率执行告警操作。然而,现在网络设备越来越复杂,各种设备之间的性能差异大,基于关联性模型算法的故障预测成功率很低,且需要大量的人工操作。因此,在较少人工介入的前提下,如何提升故障告警的准确性,即如何提高故障预测成功率和预测自动化程度,成为了当下需要解决的问题之一。
发明内容
有鉴于此,有必要提供一种基于神经网络的故障告警方法、系统、计算机设备及计算机可读存储介质,以解决当前故障预测成功率低和预测自动化程度低的问题。
为实现上述目的,本发明实施例提供了基于神经网络的故障告警方法,所述方法包括:
获取目标设备的运行数据,所述运行数据至少包括第一运行数据和第二运行数据,所述第一运行数据包括所述目标设备中的多个目标组件的异常监测数据,所述第二运行数据包括所述多个目标组件的使用率数据;
根据所述运行数据,定义预定时间节点的参数向量;
根据所述参数向量和长短期记忆网络模型,计算生成每个目标组件的故障告警标识;及
根据所述每个目标组件的故障告警标识输出故障告警信息。
进一步地,还包括:根据所述目标设备的历史运行数据训练所述长短期记忆网络模型。
进一步地,所述每个目标组件的故障告警标识预先与非零数值建立有一一对应的映射关系,所述根据所述参数向量和长短期记忆网络模型,生成每个目标组件的故障告警标识的步骤,包括:
根据所述参数向量和所述长短期记忆网络模型,计算所述每个目标组件的故障发生概率;及
根据所述每个目标组件的故障发生概率,生成相应的非零数值或零值,所述非零数值表示与所述非零数值对应的目标组件预测会出现故障事件,所述零值表示所述每个目标组件预测均不会出现故障事件。
进一步地,所述根据所述每个目标组件的故障发生概率,生成相应的非零数值或零值的步骤,包括:
判断所述多个目标组件中的第一组件的故障发生概率是否大于预设值;
如果所述多个目标组件中的第一组件的故障发生概率大于预设值时,在所述预设时间节点插入与所述第一组件对应的第一非零数值。
进一步地,所述根据所述每个目标组件的故障发生概率,生成相应的非零数值或零值的步骤,包括:
判断所述多个目标组件中的第一组件的故障发生概率是否大于预设值;
如果所述多个目标组件中的第一组件的故障发生概率大于预设值时,在早于所述预设时间节点的目标时间节点插入与所述第一组件对应的第一非零数值;及
如果所述多个目标组件中的第一组件的故障发生概率不大于预设值:判断所述目标时间节点处是否已插入有与所述第一组件对应的第一非零数值,如果没有则在所述目标时间节点处插入零值,如果已有则在所述目标时间节点处插入所述第一非零数值。
进一步地,所述第一运行数据包括日志监控数据中记录的所述目标设备的处理器、内存和存储器的异常数据,所述异常数据中的0表示无异常,1表示异常;所述第二运行数据包括主机监控数据中记录的所述目标设备的处理器使用率、内存使用率和存储器使用率。
进一步地,所述运行数据还包括第三运行数据,所述第三运行数据在于通过应用程序监控并获取所述目标设备中的多个目标组件的应用监控数据。
为实现上述目的,本发明实施例还提供了一种故障告警系统,包括:
获取模块,用于获取目标设备的运行数据,所述运行数据至少包括第一运行数据和第二运行数据,所述第一运行数据包括所述目标设备中的多个目标组件的异常监测数据,所述第二运行数据包括所述多个目标组件的使用率数据;
定义模块,用于根据所述运行数据,定义预定时间节点的参数向量;
生成模块,用于根据所述参数向量和长短期记忆网络模型,计算生成每个目标组件的故障告警标识;及
输出模块,用于根据所述每个目标组件的故障告警标识输出故障告警信息。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的基于神经网络的故障告警方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的基于神经网络的故障告警方法的步骤。
本发明实施例提供的基于神经网络的故障告警方法、系统、计算机设备及计算机可读存储介质,可以根据目标设备的多个目标组件的异常监测数据和使用率数据,基于长短期记忆网络模型得到每个目标组件的故障告警信息。且,长短期记忆网络模型可以不断学习以提高故障告警准确性,且提高自动化程度。
附图说明
图1为本发明基于神经网络的故障告警方法实施例一的流程示意图。
图2为图1中步骤S102中的定义参数向量的具体示例。
图3为本发明基于神经网络的故障告警方法实施例二的流程示意图。
图4为本发明基于神经网络的故障告警方法实施例三的流程示意图。
图5为本发明基于神经网络的故障告警系统实施例四的程序模块示意图。
图6为本发明计算机设备实施例五的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
需要说明的是,以下实施例以目标设备故障为应用场景进行介绍。例如,对服务器的故障告警应用场景:服务器的处理器、内存、存储器等可能存在老化或意外故障的情况。在日常的业务环境中,如果处理器、内存、存储器等出现故障,所采取的措施是运维人员在收到告警后将服务器上的业务资源迁移到其它服务器上,避免有问题的服务器影响业务。但迁移需要时间,并且此时运维人员是被动的进行迁移操作,往往此时这台服务器已经无法提供服务之后,因此在迁移的这段时间内业务可能会受到影响。如果基于本实施例中的故障告警的技术方案,在处理器、内存、存储器等硬件真正出现故障之前,可以快速挖掘出可能出现的故障事件,甚至提前给出一个“最近XXX天内服务器中的某组件出现故障的概率大于80%”的告警”,则运维人员可以主动地对可能出现问题的服务器上的业务资料进行迁移,此时对业务的影响会降低很多。
以下实施例中,将以计算机设备为执行主体进行示例性描述。计算机设备会根据目标设备的运行数据,判断目标设备的健康状况,并及时判断可能发生的故障事件,以及早提醒运维人员实施维护工作(如业务资料搬迁工作)。需要说明的是,目标设备不仅可以是如上所述的服务器,也可以其它网络设备,如交换机等。
实施例一
参阅图1,示出了本发明实施例一之基于神经网络的故障告警方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。
步骤S100,获取目标设备的运行数据,所述运行数据至少包括第一运行数据和第二运行数据。所述第一运行数据包括所述目标设备中的多个目标组件的异常监测数据,所述第二运行数据包括所述多个目标组件的使用率数据。
示例性的,所述第一运行数据可以是基于ELK实时日志分析系统获取的日志监控数据,该日志监控数据用于记录的所述目标设备的处理器、内存和存储器的异常数据,所述异常数据中的0表示无异常,1表示异常。当然,根据实际需要,被监控对象不仅仅限于处理器、内存和存储器,也可以包括其它组件,如网络接口、电源系统等等。ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成,在此不赘述。
示例性的,所述第二运行数据可以是基于Zabbix分布式监控系统获取的主机监控数据,如所述目标设备的处理器使用率、内存使用率、存储器使用率等。
需要说明的是,本实施例所述的运行数据并不限于所述第一运行数据和第二运行数据,还可以其它监控数据。示例性的,还可以包括第三运行数据,所述第三运行数据在于通过应用程序监控并获取所述目标设备中的多个目标组件的应用监控数据,如基于Datadog或New Relic等工具监控所述目标设备的JVM(Java虚拟机)进程的内存、内存线程数量、磁盘IO、索引的读取/写入操作等指标参数。示例性的,所述运行数据还可以包括微服务监控数据、核心基础设施监控数据等等。
需要说明的是,获取所述目标设备的运行数据,不限于直接从所述目标设备中获取所述运行数据,也可以间接获取所述运行数据,如从指定数据库(该数据库具有从所述目标设备采集所述运行数据的权限,且已经采集到相应数据)获取所述运行数据。
步骤S102,根据所述运行数据,定义预定时间节点的参数向量。
示例性的,如图2所示,以所述预设时间节点是2018/1/1 11:00~12:00为例,所述目标设备的第一运行数据为:1,1,0(即,在该时间节点处理器异常、内存异常、存储器无异常),所述目标设备的第二运行数据为:0.99,0.89,0.01(即,在该时间节点处理器的使用率为99%、内存的使用率为89%、存储器的使用率为1%)。则根据上述运行数据,定义该预定时间节点(2018/1/111:00~12:00)的参数向量为:(1,1,0,0.99,0.89,0.01)。
可以理解,不同的预设时间节点对应不同的参数向量,这些参数向量可以按时间先后顺序进行存储或显示,进一步的,可以以表格的形式进行规范化存储或显示,如下所示:
Figure GDA0004054450670000071
表一
所示表一,示出了几个时间节点以及参数向量的存储或显示形式。当然,上述形式不用于限制本实施例。
步骤S104,根据所述参数向量和长短期记忆网络模型,计算生成每个目标组件的故障告警标识。
所述长短期记忆网络模型(LSTM,Long Short-Term Memory),是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。为了使该长短期记忆网络模型适用于本实施例,还需要根据所述目标设备的历史运行数据和其它设备的海量数据对所述长短期记忆网络模型进行训练操作。本实施例在于对LSTM模型的具体应用。以下是一个LSTM模型示例,其不用于对本发明保护范围构成限制。
LSTM模型中包括遗忘门、输入门和输出门:
(1)遗忘门,会根据上一时刻的输出ht-1和当前输入xt来产生一个0到1的ft值,来决定是否让上一时刻学到的信息Ct-1通过或部分通过;
遗忘门ft=σ(Wf[xt,ht-1]+bf),其中ft∈[0,1],表示t时刻的节点对t-1时刻细胞记忆的选择权重,Wf为遗忘门的权重矩阵,bf为遗忘门的偏置项,ht-1表示t-1节点的隐层状态信息,非线性函数σ(x)=1/(1+e-x);
(2)输入门,通过sigmoid来决定哪些值用来更新,并通过tanh层用来生成新的候选值
Figure GDA0004054450670000081
它作为当前层产生的候选值可能会添加到记忆单元状态中,把这两部分产生的值结合来进行更新;
输入门it=σ(Wi[xt,ht-1]+bi),其中it∈[0,1]表示t时刻的节点对当前节点信息的选择权重,bi为输入门的偏置项,Wi为输入门的权重矩阵,非线性函数σ(x)=1/(1+e-x);
当前节点输入信息
Figure GDA0004054450670000082
其中/>
Figure GDA0004054450670000083
为偏置项,/>
Figure GDA0004054450670000084
表示待更新信息的权重矩阵,tanh为双曲正切激活函数,xt表示t时刻LSTM神经网络节点的输入向量,ht-1表示t-1节点的隐层状态信息;
对旧的记忆单元状态进行更新,添加新信息:
输出记忆信息
Figure GDA0004054450670000085
其中Ct-1表示t-1节点的记忆信息,ft表示t时刻的节点对t-1时刻细胞记忆的选择权重,it表示t时刻的节点对当前节点信息的选择权重;
(3)输出门,用于决定LSTM模型的输出;
输出门ot=σ(Wo[xt,ht-1]+bo),其中ot∈[0,1]表示t时刻的节点细胞记忆信息的选择权重,bo为输出门的偏置,Wo为输出门的权重矩阵,
Figure GDA0004054450670000086
表示向量xt和ht-1拼接后的向量,即|xt|+|ht-1|维的向量,xt表示t时刻LSTM神经网络节点的输入向量,即本实施例中的参数向量,如2018/1/1 10:00时刻的参数向量(1,0,0,0.43,0.17,0.0)。
t时刻的隐层状态ht=ot·tanh(Ct)。
示例性的,以2018/1/1 11:00~12:00为例,参数向量为:(1,1,0,0.99,0.89,0.01)。可以将(1,1,0,0.99,0.89,0.01)代入所述长短期记忆网络模型中。如果基于所述长短期记忆网络模型,分析并预测内存可能出现故障事件,则生成对应于内存的故障告警标识。
步骤S106,根据所述每个目标组件的故障告警标识输出故障告警信息。
所述故障告警信息,用于提示运维人员根据系统的预测采取相关的操作。具体的,可以输出到电子装置的显示界面,也可以邮件的方式输出至运维人员的邮箱中。
实施例二
本实施例在于:目标设备的每个目标组件的故障告警标识预先与非零数值建立有一一对应的映射关系。如:所述目标设备的处理器告警标识为“1”,内存告警标识为“2”,存储器告警标识为“3”,无告警标识为“0”。不难理解,通过在每个时间节点插入的非零数值,就可以判断哪些目标组件出现告警标识。当然,所述每个目标组件的告警标识也可以预先与其它文字建立有一一对应的映射关系,如字母等。
请参阅图3,示出了本发明实施例二之基于神经网络的故障告警方法的步骤流程图。本实施例的一种基于神经网络的故障告警方法中,包括以下步骤:
步骤S100,获取目标设备的运行数据,所述运行数据至少包括第一运行数据和第二运行数据。所述运行数据至少包括第一运行数据和第二运行数据,所述第一运行数据包括所述目标设备中的多个目标组件的异常监测数据,所述第二运行数据包括所述多个目标组件的使用率数据。
步骤S102,根据所述运行数据,定义预定时间节点的参数向量。
步骤S104A,根据所述参数向量和所述长短期记忆网络模型,计算所述每个目标组件的故障发生概率。
步骤S104B,根据所述每个目标组件的故障发生概率,生成相应的非零数值或零值,所述非零数值表示与所述非零数值对应的目标组件预测会出现故障事件,所述零值表示所述每个目标组件预测均不会出现故障事件。
例如,如果预测内存可能会发生故障事件,则生成内存告警标识“2”;如果预测处理器和内存均可能发生故障事件,则生成处理器告警标识“1”和/或内存告警标识“2”;如果预测所述目标设备的内存、处理器和存储器均不会发生故障事件,则生成无告警标识“0”。需要说明的是,如果预测多个目标组件(处理器、内存、存储器等)均可能发生故障事件,则可以生成多个故障告警标识,也可以选择生成其中一个故障告警标识(多个故障告警标识或一个故障告警标识均可用于提示运维人员执行所述目标设备的维护操作)。
以2018/1/1 9:00~10:00为例,该时间节点处理器异常(参数为1),且此时处理器的使用率(参数为0.43),那么至少综合这两个涉及处理器的参数,通过所述长短期记忆网络模型分析得出,不生成处理器告警标识“1”。且存储器和内存通过所述长短期记忆网络模型分析得出也未生成内存告警标识“2”和存储器告警标识“3”,则在该时间节点(2018/1/19:00~10:00)生成无告警标识“0”。
以2018/1/1 11:00~12:00为例,通过所述长短期记忆网络模型分析得出,处理器和内存可能均发生故障事件,这时可以同时生成处理器告警标识1和内存告警标识2,也可选择生成其中一个故障告警标识(如内存告警标识2),以提示运维人员将所述目标设备上的业务资料搬迁到其他设备上。
在具体实施时,步骤S104B进一步包括:判断所述多个目标组件中的第一组件的故障发生概率是否大于预设值;如果所述多个目标组件中的第一组件的故障发生概率大于预设值时,在所述预设时间节点插入与所述第一组件对应的第一非零数值。
以2018/1/1 11:00~12:00为例,所述短期记忆网络模型经过训练之后,可能将处理器异常参数(1)的权重值匹配为0.4,将处理器的使用率(0.43)的权重值匹配为0.6,那么处理器的故障发生概率为1*0.4+0.43*0.6=0.572,0.572小于0.6(假设所述长短期记忆网络模型经过训练之后将触发生成处理器告警标识的预设值设置为0.6),则不生成处理器告警标识“1”。需要说明的是,上面的故障发生概率的计算方法仅为一简单示例,并不用于限制本发明保护范围。
下表二,示出了几个时间节点、参数向量以及告警标识的存储或显示形式。
Figure GDA0004054450670000111
表二
步骤S106,根据所述每个目标组件的故障告警标识输出故障告警信息。
实施例三
本实施例在于:提前给出一个“最近XXX天内目标设备中的某组件出现故障的概率大于80%”的故障告警信息。
请参阅图4,示出了本发明实施例三之基于神经网络的故障告警方法的步骤流程图。本实施例的一种基于神经网络的故障告警方法中,包括以下步骤:
步骤S200,获取目标设备的运行数据。
所述运行数据至少包括第一运行数据和第二运行数据,所述第一运行数据包括所述目标设备中的多个目标组件的异常监测数据,所述第二运行数据包括所述多个目标组件的使用率数据。
步骤S202,根据所述运行数据,定义预定时间节点的参数向量。
步骤S204,根据所述参数向量和长短期记忆网络模型,计算所述多个目标组件中的第一组件的故障发生概率。
步骤S206,判断所述多个目标组件中的第一组件的故障发生概率是否大于预设值。如果是,进入步骤S208,否则进入步骤S210。
以2018/1/1 11:00-12:00为例,所述短期记忆网络模型经过训练之后,可能将处理器异常参数(1)的权重值匹配为0.4,将处理器的使用率(0.43)的权重值匹配为0.6,那么处理器的故障发生概率为1*0.4+0.43*0.6)=0.572,0.572小于0.6(假设所述长短期记忆网络模型经过训练之后将触发生成处理器告警标识的预设值设置为0.6,预设值0.6对应于处理器故障发生率80%),则不生成处理器告警标识“1”。需要说明的是,上面的故障发生概率的计算方法仅为一简单示例,并不用于限制本发明保护范围。
步骤S208,在早于所述预设时间节点的目标时间节点插入与所述第一组件告警标识对应的第一非零数值。
所述目标时间节点早于所述预设时间节点指定时间间隔,例如7天。以2018/1/111:00~12:00为例,参数向量为:(1,1,0,0.99,0.89,0.01),基于所述长短期记忆网络模型生成内存告警标识“2”,则将该内存告警标识“2”插入到2017/12/25 11:00~12:00(与2018/1/1 11:00~12:00相隔7天)的目标时间节点处。可以理解,该内存告警标识“2”插入的时间节点往前漂移了一个时间段,可以预测到更往后的告警。
步骤S210,判断所述目标时间节点处是否已插入有与所述第一组件对应的第一非零数值。如果是,进入步骤S212,否则进入步骤S214。
以2018/1/1 10:00~11:00为例,向量参数为:(1,0,0,0.43,0.17,0.07),根据所述长短期记忆网络模型计算生成无故障告警标识“0”,对该无故障告警标识“0”插入到2017/12/25 10:00~11:00(与2018/1/1 10:00~11:00相隔7天)的目标时间节点处,在插入该无故障告警标识“0”时,需要判断2017/12/2510:00~11:00这个目标时间节点是否已经记录有故障告警标识(如,1、2或3),如果已有,则继续维持该原先记录的故障告警标识,如果没有,则在该目标时间节点处插入“0”。
步骤S212,在所述目标时间节点处插入所述第一非零数值。
步骤S214,在所述目标时间节点处插入零值。
Figure GDA0004054450670000131
表三
可以理解,在本实施例中,表三中的内存告警标识2可能是根据2018/1/811:00~12:00的所述目标设备的运行数据,产生的故障告警标识。
实施例四
请继续参阅图5,示出了本发明实施例四之基于神经网络的故障告警系统的程序模块示意图。在本实施例中,故障告警系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述故障告警方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述故障告警系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
获取模块200,用于获取目标设备的运行数据。
所述运行数据至少包括第一运行数据和第二运行数据,所述第一运行数据包括所述目标设备中的多个目标组件的异常监测数据,所述第二运行数据包括所述多个目标组件的使用率数据。
示例性的,所述第一运行数据可以是基于ELK实时日志分析系统获取的日志监控数据,该日志监控数据用于记录的所述目标设备的处理器、内存和存储器的异常数据,所述异常数据中的0表示无异常,1表示异常。当然,根据实际需要,被监控对象不仅仅限于处理器、内存和存储器,也可以包括其它组件,如网络接口、电源系统等等。
示例性的,所述第二运行数据可以是基于Zabbix分布式监控系统获取的主机监控数据,如所述目标设备的处理器使用率、内存使用率和存储器使用率。
需要说明的是,本实施例所述的运行数据并不限于所述第一运行数据和第二运行数据,还可以其它监控数据。示例性的,还包括应用监控数据、微服务监控数据、核心基础设施监控数据等等。
定义模块202,用于根据所述运行数据,定义预定时间节点的参数向量。
生成模块204,用于根据所述参数向量和长短期记忆网络模型,计算生成每个目标组件的故障告警标识。
在一实施例中,为方便操作,所述每个目标组件的告警标识预先与非零数值建立有一一对应的映射关系,生成模块204还用于:根据所述参数向量和长短期记忆网络模型,计算所述每个目标组件的故障发生概率;根据所述每个目标组件的故障发生概率,生成相应的非零数值或零值,所述非零数值表示与之对应的目标组件预测会出现故障事件,所述零值表示预测不会出现故障事件。具体的,如果所述多个目标组件中的第一组件的故障发生概率大于预设值时,在所述预设时间节点插入与所述第一组件对应的第一非零数值。
在另一实施例中,生成模块204还用于:根据所述参数向量和长短期记忆网络模型,计算所示每个目标组件的故障发生概率;判断所述多个目标组件中的第一组件的故障发生概率是否大于预设值;如果所述多个目标组件中的第一组件的故障发生概率大于预设值时,在早于所述预设时间节点的目标时间节点插入与所述第一组件对应的第一非零数值;及如果所述多个目标组件中的第一组件的故障发生概率不大于预设值:判断所述目标时间节点处是否已插入有与所述第一组件对应的第一非零数值,如果没有则在所述目标时间节点处插入零值,如果已有则在所述目标时间节点处插入所述第一非零数值。
需要说明的是,所述每个目标组件的告警标识也可以预先与其它文字建立有一一对应的映射关系,如字母等。
输出模块205,用于根据所述每个目标组件的故障告警标识输出故障告警信息。
实施例五
参阅图6,是本发明实施例五之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及故障告警系统20。
其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例四的故障告警系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行故障告警系统20,以实现实施例一、二或三的基于神经网络的故障告警方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述服务器2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述服务器2与外部终端相连,在所述服务器2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图6仅示出了具有部件21-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述故障告警系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图5示出了所述实现故障告警系统20实施例四的程序模块示意图,该实施例中,所述故障告警系统20可以被划分为获取模块200、定义模块202、生成模块204和输出模块204。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述故障告警系统20在所述计算机设备2中的执行过程。所述程序模块200-206的具体功能在实施例四中已有详细描述,在此不再赘述。
实施例六
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储故障告警系统20,被处理器执行时实现实施例一、二或三的基于神经网络的故障告警方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于神经网络的故障告警方法,其特征在于,所述方法包括:
获取目标设备的运行数据,所述运行数据至少包括第一运行数据和第二运行数据,所述第一运行数据包括所述目标设备中的多个目标组件的异常监测数据,所述第二运行数据包括所述多个目标组件的使用率数据;
根据所述运行数据,定义预定时间节点的参数向量;
根据所述参数向量和长短期记忆网络模型,计算生成每个目标组件的故障发生率;根据所述故障发生率和预设阈值,确定每个目标组件的故障告警标识;及
根据所述每个目标组件的故障告警标识输出故障告警信息。
2.如权利要求1所述的基于神经网络的故障告警方法,其特征在于,还包括:根据所述目标设备的历史运行数据训练所述长短期记忆网络模型。
3.如权利要求2所述的基于神经网络的故障告警方法,其特征在于,所述每个目标组件的故障告警标识预先与非零数值建立有一一对应的映射关系,所述根据所述参数向量和长短期记忆网络模型,计算生成每个目标组件的故障发生率;根据所述故障发生率和预设阈值,确定每个目标组件的故障告警标识的步骤,包括:
根据所述每个目标组件的故障发生概率,生成相应的非零数值或零值,所述非零数值表示与所述非零数值对应的目标组件预测会出现故障事件,所述零值表示所述每个目标组件预测均不会出现故障事件。
4.如权利要求3所述的基于神经网络的故障告警方法,其特征在于,所述根据所述每个目标组件的故障发生概率,生成相应的非零数值或零值的步骤,包括:
判断所述多个目标组件中的第一组件的故障发生概率是否大于预设值;及
如果所述多个目标组件中的第一组件的故障发生概率大于预设值时,在所述预定时间节点插入与所述第一组件对应的第一非零数值。
5.如权利要求3所述的基于神经网络的故障告警方法,其特征在于,所述根据所述每个目标组件的故障发生概率,生成相应的非零数值或零值的步骤,包括:
判断所述多个目标组件中的第一组件的故障发生概率是否大于预设值;
如果所述多个目标组件中的第一组件的故障发生概率大于预设值时,在早于所述预定时间节点的目标时间节点插入与所述第一组件对应的第一非零数值;及
如果所述多个目标组件中的第一组件的故障发生概率不大于预设值:判断所述目标时间节点处是否已插入有与所述第一组件对应的第一非零数值,如果没有则在所述目标时间节点处插入零值,如果已有则在所述目标时间节点处插入所述第一非零数值。
6.如权利要求1~5任一项所述的基于神经网络的故障告警方法,其特征在于,所述第一运行数据包括日志监控数据中记录的所述目标设备的处理器、内存和存储器的异常数据,所述异常数据中的0表示无异常,1表示异常;所述第二运行数据包括主机监控数据中记录的所述目标设备的处理器使用率、内存使用率和存储器使用率。
7.如权利要求6所示的故障告警方法,其特征在于,所述运行数据还包括第三运行数据,所述第三运行数据在于通过应用程序监控并获取所述目标设备中的多个目标组件的应用监控数据。
8.一种故障告警系统,其特征在于,包括:
获取模块,用于获取目标设备的运行数据,所述运行数据至少包括第一运行数据和第二运行数据,所述第一运行数据包括所述目标设备中的多个目标组件的异常监测数据,所述第二运行数据包括所述多个目标组件的使用率数据;
定义模块,用于根据所述运行数据,定义预定时间节点的参数向量;
生成模块,用于根据所述参数向量和长短期记忆网络模型,计算生成每个目标组件的故障发生率;根据所述故障发生率和预设阈值,确定每个目标组件的故障告警标识;
输出模块,用于根据所述每个目标组件的故障告警标识输出故障告警信息。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于神经网络的故障告警方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1-7中任一项所述的基于神经网络的故障告警方法的步骤。
CN201811238310.1A 2018-10-23 2018-10-23 基于神经网络的故障告警方法、系统、计算机设备及介质 Active CN109639450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811238310.1A CN109639450B (zh) 2018-10-23 2018-10-23 基于神经网络的故障告警方法、系统、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811238310.1A CN109639450B (zh) 2018-10-23 2018-10-23 基于神经网络的故障告警方法、系统、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN109639450A CN109639450A (zh) 2019-04-16
CN109639450B true CN109639450B (zh) 2023-06-23

Family

ID=66066474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811238310.1A Active CN109639450B (zh) 2018-10-23 2018-10-23 基于神经网络的故障告警方法、系统、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN109639450B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347561B (zh) * 2019-06-11 2022-12-30 平安科技(深圳)有限公司 监控告警方法及终端设备
CN110232482B (zh) * 2019-06-18 2023-07-25 魏显文 基于神经网络的设备管理方法及装置
CN110457906B (zh) * 2019-08-15 2023-03-31 国家电网公司华东分部 一种网络安全事件智能告警方法
CN110727586B (zh) * 2019-09-16 2024-05-31 平安科技(深圳)有限公司 一种主机异常监控方法、装置、存储介质和服务器
CN112668729A (zh) * 2019-10-15 2021-04-16 深圳怡化电脑股份有限公司 设备数据分析方法、装置、计算机设备及可读存储介质
CN112817785A (zh) * 2019-11-15 2021-05-18 亚信科技(中国)有限公司 一种微服务系统的异常检测方法及装置
CN110968061B (zh) * 2019-12-06 2021-02-26 珠海格力电器股份有限公司 设备故障的预警方法、装置、存储介质和计算机设备
CN111144639A (zh) * 2019-12-24 2020-05-12 国电南京自动化股份有限公司 一种基于alln算法的地铁设备故障预测方法及系统
CN111210353B (zh) * 2020-01-08 2021-02-26 高盈量化云科技(深圳)有限公司 一种智能触发和通知的方法
CN111277444B (zh) * 2020-02-05 2022-12-27 苏州浪潮智能科技有限公司 一种交换机故障预警方法和装置
CN111260504B (zh) * 2020-02-11 2020-11-17 南京瀚元科技有限公司 智能电网监控方法、系统及智能电网控制器
CN112052145A (zh) * 2020-09-09 2020-12-08 中国工商银行股份有限公司 性能告警阈值的确定方法、装置、电子设备和介质
CN112132357A (zh) * 2020-09-29 2020-12-25 佳都新太科技股份有限公司 一种基于大数据的行为预测方法、装置、设备及存储介质
CN112308126B (zh) * 2020-10-27 2024-08-23 深圳前海微众银行股份有限公司 故障识别模型训练方法、故障识别方法、装置及电子设备
CN112529733A (zh) * 2020-12-07 2021-03-19 云南电网有限责任公司普洱供电局 配电网作业安全远程管控方法、装置、设备及存储介质
CN112630475B (zh) * 2020-12-08 2023-11-07 湖南炬神电子有限公司 一种电子烟老化柜及老化系统
CN112910691B (zh) * 2021-01-19 2023-06-27 中国工商银行股份有限公司 机房故障检测方法及装置
CN113204461B (zh) * 2021-04-16 2022-05-03 山东英信计算机技术有限公司 一种服务器硬件监控的方法、装置、设备及可读介质
CN113313591A (zh) * 2021-05-26 2021-08-27 中国银行股份有限公司 一种数据异常的告警方法及装置
CN113657628A (zh) * 2021-08-20 2021-11-16 武汉霖汐科技有限公司 工业设备监控方法、系统、电子设备及存储介质
CN116089231B (zh) * 2023-02-13 2023-09-15 北京优特捷信息技术有限公司 一种故障告警方法、装置、电子设备及存储介质
CN116126732A (zh) * 2023-03-08 2023-05-16 哈尔滨工业大学(深圳) 一种计算机故障定位方法和计算机
CN116502166B (zh) * 2023-04-28 2024-02-02 天宇正清科技有限公司 一种对目标设备故障预测的方法、装置、设备和介质
CN116610104B (zh) * 2023-07-19 2023-11-03 博纯材料股份有限公司 基于砷烷合成控制系统的故障分析方法及系统
CN116842349B (zh) * 2023-08-31 2023-11-21 天津鑫宝龙电梯集团有限公司 一种智能故障识别方法、装置、设备和介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10289509B2 (en) * 2016-04-06 2019-05-14 Nec Corporation System failure prediction using long short-term memory neural networks
CN106650919A (zh) * 2016-12-23 2017-05-10 国家电网公司信息通信分公司 一种基于卷积神经网络的信息系统故障诊断方法及装置
CN108259194B (zh) * 2016-12-28 2021-08-06 普天信息技术有限公司 网络故障预警方法及装置
CN107273273A (zh) * 2017-06-27 2017-10-20 郑州云海信息技术有限公司 一种分布式集群硬件故障预警方法及系统

Also Published As

Publication number Publication date
CN109639450A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109639450B (zh) 基于神经网络的故障告警方法、系统、计算机设备及介质
CN110309009B (zh) 基于情境的运维故障根因定位方法、装置、设备及介质
CN113176978B (zh) 基于日志文件的监控方法、系统、设备及可读存储介质
CN109583758B (zh) 监察系统的预警规则修正方法、装置和计算机设备
CN110262939B (zh) 算法模型运行监控方法、装置、计算机设备和存储介质
CN105095056A (zh) 一种数据仓库数据监控的方法
CN109960635B (zh) 实时计算平台的监控和报警方法、系统、设备及存储介质
US11983002B2 (en) Failure probability assessment system and method therefor
CN112306808A (zh) 性能监测评价方法、装置、计算机设备及可读存储介质
CN109905268B (zh) 网络运维的方法及装置
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN112527484A (zh) 工作流断点续跑方法、装置、计算机设备及可读存储介质
CN114356722A (zh) 用于服务器集群的监控告警方法、系统、设备及存储介质
CN112416957A (zh) 基于数据模型层的数据增量更新方法、装置及计算机设备
CN113254153B (zh) 流程任务处理方法、装置、计算机设备和存储介质
CN111800807A (zh) 一种基站用户数量告警的方法及装置
CN110069382B (zh) 软件监控方法、服务器、终端设备、计算机设备及介质
CN112862222A (zh) 空调回风温度的预测方法、异常监控方法和相关装置
Hu et al. Determination of optimal MR&R policies for retaining life-cycle connectivity of bridge networks
CN110134680B (zh) 空间监控方法、装置、计算机设备及存储介质
CN114143224B (zh) 数据传输质量监控方法、装置、系统及存储介质
CN113835961B (zh) 告警信息监控方法、装置、服务器及存储介质
US10917203B2 (en) Estimate bit error rates of network cables
JP2019079120A (ja) 情報処理装置、情報処理方法、及びプログラム
CN112580827B (zh) 工单的生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant