CN108092794A - 网络故障处理方法和装置 - Google Patents

网络故障处理方法和装置 Download PDF

Info

Publication number
CN108092794A
CN108092794A CN201711091498.7A CN201711091498A CN108092794A CN 108092794 A CN108092794 A CN 108092794A CN 201711091498 A CN201711091498 A CN 201711091498A CN 108092794 A CN108092794 A CN 108092794A
Authority
CN
China
Prior art keywords
alarming
network
fault pre
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711091498.7A
Other languages
English (en)
Inventor
孙振江
丁伟
边伟
吴其杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hundred Enlightenment Technology Co Ltd
Original Assignee
Beijing Hundred Enlightenment Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hundred Enlightenment Technology Co Ltd filed Critical Beijing Hundred Enlightenment Technology Co Ltd
Priority to CN201711091498.7A priority Critical patent/CN108092794A/zh
Publication of CN108092794A publication Critical patent/CN108092794A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0213Standardised network management protocols, e.g. simple network management protocol [SNMP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络故障处理方法和装置。其中,该方法包括:获取网络监控数据;通过故障预警模型,确定获取的网络监控数据对应的故障预警结果,其中,故障预警模型为使用多组数据通过机器学习训练得出的,多组数据中的每组数据均包括:网络监控数据和用于标识在网络监控数据下网络是否出现故障的故障结果标记;对确定的故障预警结果进行处理。本发明解决了由于相关技术网络监控效果不佳造成的用户需求无法满足的技术问题。

Description

网络故障处理方法和装置
技术领域
本发明涉及网络监控技术领域,具体而言,涉及一种网络故障处理方法和装置。
背景技术
最近几年,得益于中国信息化和互联网的持续高速发展,尤其是电商、手机应用、大数据、云计算、人工智能等技术和领域的发展已经逐渐渗透进人们的日常生活,企业和用户对网络和服务的可用性也提出了更高的要求。随着云计算、内容分发网络(ContentDelivery Network,简称CDN)的普及,对于多数企业来讲可以很容易的解决应用级和内容级的高可用问题。但是随着网络和应用的普及,网络黑客及竞争对手的恶意攻击也越来越多,这些都造成了网络的不稳定性,同时随着服务节点的增加,增加了网络故障的概率,同时也导致了网络监控的复杂性。
就网络监控相关技术而言,通常通过网络协议对目标机器进行监测,当监测失败或者监测指标低于一定阈值时则认为网络故障,并触发预警,这种监控方式比较简单,但是这种方式只能做到事后预警,即检测到网络故障时实际故障已经发生,而且这种方式本身为了防止网络波动而造成误报往往还需要一定时长的延时才能得到网络故障的结论,显然已经无法满足高可用系统的要求,所以人们迫切需要一种能对网络攻击或网络故障进行预测性预警的监控系统。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网络故障处理方法和装置,以至少解决由于相关技术网络监控效果不佳造成的用户需求无法满足的技术问题。
根据本发明实施例的一个方面,提供了一种网络故障处理方法,包括:获取网络监控数据;通过故障预警模型,确定获取的所述网络监控数据对应的故障预警结果,其中,所述故障预警模型为使用多组数据通过机器学习训练得出的,所述多组数据中的每组数据均包括:网络监控数据和用于标识在所述网络监控数据下网络是否出现故障的故障结果标记;对确定的所述故障预警结果进行处理。
可选的,在通过所述故障预警模型,确定获取的所述网络监控数据对应的所述故障预警结果之前,还包括:通过网络控制消息协议(Internet Control Message Protocol,简称ICMP)、简单网络管理协议(Simple Network Management Protocol,简称SNMP)和超文本传输协议(Hyper Text Transfer Protocol,简称HTTP)获取用于训练出所述故障预警模型的所述多组数据;根据通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行训练,得到所述故障预警模型。
可选的,根据通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行训练,得到所述故障预警模型包括:根据故障类型,对通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行分类;依据对分类后的对应故障类型的多组数据进行训练,得到与所述故障类型对应的故障预警模型。
可选的,在根据通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行训练,得到所述故障预警模型之后,还包括:获取用于对所述故障预警模型进行更新的模型更新数据;依据所述模型更新数据,对所述故障预警模型进行更新,得到更新后的故障预警模型。
可选的,对确定的所述故障预警结果进行处理包括:在所述故障预警结果表示所述网络将出现故障的情况下,向高层发出预警信息;和/或,在所述故障预警结果表示所述网络正常的情况下,判断所述网络在预定时间段内是否出现过故障,在判断结果为所述网络在所述预定时间段内出现过故障的情况下,向高层发出预警信息。
根据本发明实施例的另一方面,还提供了一种网络故障处理装置,包括:第一获取模块,用于获取网络监控数据;确定模块,用于通过故障预警模型,确定获取的所述网络监控数据对应的故障预警结果,其中,所述故障预警模型为使用多组数据通过机器学习训练得出的,所述多组数据中的每组数据均包括:网络监控数据和用于标识在所述网络监控数据下网络是否出现故障的故障结果标记;处理模块,用于对确定的所述故障预警结果进行处理。
可选的,所述网络故障处理装置还包括:第二获取模块,用于在通过所述故障预警模型,确定获取的所述网络监控数据对应的所述故障预警结果之前,通过网络控制消息协议ICMP、简单网络管理协议SNMP和超文本传输协议HTTP获取用于训练出所述故障预警模型的所述多组数据;训练模块,用于根据通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行训练,得到所述故障预警模型。
可选的,所述训练模块包括:分类单元,用于根据故障类型,对通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行分类;得到单元,用于依据对分类后的对应故障类型的多组数据进行训练,得到与所述故障类型对应的故障预警模型。
可选的,所述网络故障处理装置还包括:第三获取模块,用于在根据通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行训练,得到所述故障预警模型之后,获取用于对所述故障预警模型进行更新的模型更新数据;得到模块,用于依据所述模型更新数据,对所述故障预警模型进行更新,得到更新后的故障预警模型。
可选的,所述处理模块包括:第一预警单元,用于在所述故障预警结果表示所述网络将出现故障的情况下,向高层发出预警信息;和/或,第二预警单元,用于在所述故障预警结果表示所述网络正常的情况下,判断所述网络在预定时间段内是否出现过故障,在判断结果为所述网络在所述预定时间段内出现过故障的情况下,向高层发出预警信息。
在本发明实施例中,采用机器学习的方式,通过获取网络监控数据,及故障预警模型,确定对应的故障预警结果,进而对确定的故障预警结果进行处理,其中,故障预警模型为使用多组数据通过机器学习训练得出的,多组数据中的每组数据均包括:网络监控数据和用于标识在网络监控数据下网络是否出现故障的故障结果标记。本发明实施例达到了用机器学习的技术能力来解释和预测传统网络监控数据,再结合系统平台的主动告警和实时切换功能实现对高层业务应用的无缝转移和切换的目的,从而实现了有效降低网络故障对业务的影响,增加用户体验的技术效果,进而解决了由于相关技术网络监控效果不佳造成的用户需求无法满足的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网络故障处理方法的流程图;
图2是根据本发明实施例的网络故障处理装置的结构示意图;
图3是根据本发明实施例的网络故障处理装置的优选结构示意图一;
图4是根据本发明实施例的网络故障处理装置的训练模块34的结构示意图;
图5是根据本发明实施例的网络故障处理装置的优选结构示意图二;
图6是根据本发明实施例的网络故障处理装置的处理模块26的结构示意图;
图7是根据本发明实施例的一种基于深度学习的网络监控系统的结构示意图;
图8是根据本发明实施例的一种基于深度学习的网络监控系统中的深度学习训练方法流程图;
图9是根据本发明实施例的一种基于深度学习的网络监控预测方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种网络故障处理的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的网络故障处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取网络监控数据;
步骤S104,通过故障预警模型,确定获取的网络监控数据对应的故障预警结果,其中,故障预警模型为使用多组数据通过机器学习训练得出的,多组数据中的每组数据均包括:网络监控数据和用于标识在网络监控数据下网络是否出现故障的故障结果标记;
步骤S106,对确定的故障预警结果进行处理。
在本发明实施例中,采用机器学习的方式,通过获取网络监控数据,及故障预警模型,确定对应的故障预警结果,进而对确定的故障预警结果进行处理,其中,故障预警模型为使用多组数据通过机器学习训练得出的,多组数据中的每组数据均包括:网络监控数据和用于标识在网络监控数据下网络是否出现故障的故障结果标记。本发明实施例达到了用机器学习的技术能力来预测传统网络监控数据,并对可确定的故障预警结果进行处理,从而实现了有效降低网络故障对业务的影响,增加用户体验的技术效果,进而解决了由于相关技术网络监控效果不佳造成的用户需求无法满足的技术问题。
优选的,在通过故障预警模型,确定获取的网络监控数据对应的故障预警结果之前,还可以包括:通过网络控制消息协议ICMP、简单网络管理协议SNMP和超文本传输协议HTTP获取用于训练出故障预警模型的多组数据;根据通过ICMP、SNMP和HTTP获取的多组数据进行训练,得到故障预警模型。
本发明实施例中,首先进行网络监测,即通过监测机采用ICMP、SNMP和HTTP等多种网络协议对靶机进行网络质量进行监测,获取大量原始数据,连同得到的故障预警模型,对即将产生的故障进行预测。故预测之前,需首先将监测到的原始数据通过机器学习进行数据训练并得到故障预警模型,其中,可选用深度学习方法,通过设置训练模块,运用训练模块加载原始数据,进行数据标记处理后产生训练数据,对通过深度学习获得的故障预警模型进行学习和训练,并设置故障预警模块,以将训练完成后获得的故障预警模型更新至故障预警模块。同时将监测到的原始数据发送到该故障预警模块中,通过实时数据与获得的故障预警模型匹配程度进行故障预测。
其中,深度学习是机器学习研究中的一个新的领域,它通过组合低层次特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。从而达到模拟人脑进行分析学习的目的。深度学习的概念源于人们对人工神经网络的研究,含有多隐层的多层感知器就是一种深度学习结构,尤其是最近卷积神经网络CNN和循环神经网络RNN的兴起,为人们研究基于时间序列的深度学习打开了一扇全新的大门。由于深度学习可以模仿人脑的机制来解释数据,并且具备优秀的通过低层次数据特征来对高层特征进行预测的性能,所以我们也可以通过深度学习技术来对网络监控数据有效的解释和预测。
本实施例中,可设置基于深度学习的训练模块定时加载获取的原始数据并且使用事先设定好的网络模型和参数进行学习和训练,网络模型和参数是根据之前的研究实践所得出的最优效果数据。
优选的,根据通过ICMP、SNMP和HTTP获取的多组数据进行训练,得到故障预警模型可以包括:根据故障类型,对通过ICMP、SNMP和HTTP获取的多组数据进行分类;依据对分类后的对应故障类型的多组数据进行训练,得到与故障类型对应的故障预警模型。
本实施例中,数据进行训练期间,需对加载的原始数据进行分类,此处的原始数据可为已加载一定时间段的原始监控数据。分类时首先需进行数据标记,标记过程中根据原定的故障类型和故障标准对原始数据进行故障标记和数据处理,处理后生成训练数据。其后可通过设置训练模块,应用训练模块对训练数据进行学习,通过选用的深度学习方法,经过深度学习神经网络的充分学习之后,最终生成与故障类型对应的故障预警模型。将生成的故障预警模型应用到实时监测中,通过实时接收监测机发送的原始数据,根据已生成的故障预警模型进行预测,如果预测的结果是即将发生故障,则依据对应的故障预警模型产生预测性预警。
同时,需要说明的是,上述故障标记可通过故障标准自动标记,实现完全不依赖于人工操作,进而实现了数据收集、标记、训练、预测完全自动化运行,达到了预测模型自动学习、自动进化的目的。
优选的,在根据通过ICMP、SNMP和HTTP获取的多组数据进行训练,得到故障预警模型之后,还可以包括:获取用于对故障预警模型进行更新的模型更新数据;依据模型更新数据,对故障预警模型进行更新,得到更新后的故障预警模型。
本发明实施例中,数据训练过程中,还可采用训练模块将产生的故障预警模型更新至故障预警模块中,并且更新故障预警模型更新标记,以备下次预测时使用。即根据上述实施方式,训练数据可以实现训练数据可以是预先通过实验室或监测积累得到的,也可以是监测预警过程中不断采集积累更新的,通过对实时数据的不断累积、更新和反馈,从而得到大量的数据均可以用于训练,进而根据历史和现状,使模型产生的更加智能化和多样化。
优选的,对确定的故障预警结果进行处理可以包括:在故障预警结果表示网络将出现故障的情况下,向高层发出预警信息;和/或,在故障预警结果表示网络正常的情况下,判断网络在预定时间段内是否出现过故障,在判断结果为网络在预定时间段内出现过故障的情况下,向高层发出预警信息。
本发明实施例中,通过生成的故障预警模型产生预测性预警后,可触发预警信息发送给相应的业务系统,由业务系统决策具体优化策略。具体预警处理过程可为:
1、如果预测结果为即将发生故障的,预测模块将预警信息发送到预警模块,其中该预警信息为故障信息;如果当前预测结果为正常,但在之前一段时间内(该时间设为t,其范围或取值可自行定义)有过故障状态的,也会触发预警信息到预警模块,其中该预警信息为恢复信息;
2、预警模块接收到的预警信息,根据预测类型、靶机业务以及故障类型向高层次业务应用发起预警;
3、高层业务应用收到预警后进行相关的故障转移(故障恢复)或者业务切换动作,以保障业务层面上的高可用。
根据本发明实施例的另外一个方面,还提供了网络故障处理的装置,图2是根据本发明实施例的网络故障处理装置的结构示意图,如图2所示,该装置包括:第一获取模块22、确定模块24、处理模块26,下面对该装置模块进行详细说明。
第一获取模块22,用于获取网络监控数据;
确定模块24,连接至上述第一获取模块22,用于通过故障预警模型,确定获取的网络监控数据对应的故障预警结果,其中,故障预警模型为使用多组数据通过机器学习训练得出的,多组数据中的每组数据均包括:网络监控数据和用于标识在网络监控数据下网络是否出现故障的故障结果标记;
处理模块26,连接至上述确定模块24,用于对确定的故障预警结果进行处理。
图3是根据本发明实施例的网络故障处理装置的优选结构示意图一,如图3所示,该装置中除图2包含的所有结构外,还包括:第二获取模块32、训练模块34,下面对该装置模块进行详细说明。
第二获取模块32,连接至上述第一获取模块22,用于在通过故障预警模型,确定获取的网络监控数据对应的故障预警结果之前,通过网络控制消息协议ICMP、简单网络管理协议SNMP和超文本传输协议HTTP获取用于训练出故障预警模型的多组数据;
训练模块34,连接至上述第二获取模块32和确定模块24,用于根据通过ICMP、SNMP和HTTP获取的多组数据进行训练,得到故障预警模型。
图4是根据本发明实施例的网络故障处理装置的训练模块34的结构示意图,如图4所示,该训练模块34包括:分类单元42、得到单元44,下面对该训练模块34进行详细说明。
分类单元42,用于根据故障类型,对通过ICMP、SNMP和HTTP获取的多组数据进行分类;
得到单元44,连接至上述分类单元42,用于依据对分类后的对应故障类型的多组数据进行训练,得到与故障类型对应的故障预警模型。
图5是根据本发明实施例的网络故障处理装置的优选结构示意图二,如图5所示,该装置中除图3包含的所有结构外,还包括:第三获取模块52、得到模块54,下面对该装置模块进行详细说明。
第三获取模块52,连接至上述确定模块24,用于在根据通过ICMP、SNMP和HTTP获取的多组数据进行训练,得到故障预警模型之后,获取用于对故障预警模型进行更新的模型更新数据;
得到模块54,连接至第三获取模块52和处理模块26,用于依据模型更新数据,对故障预警模型进行更新,得到更新后的故障预警模型。
图6是根据本发明实施例的网络故障处理装置的处理模块26的结构示意图,如图6所示,该处理模块26包括:第一预警单元62、第二预警单元64,下面对该处理模块26进行详细说明。
第一预警单元62,用于在故障预警结果表示网络将出现故障的情况下,向高层发出预警信息;
第二预警单元64,用于在故障预警结果表示网络正常的情况下,判断网络在预定时间段内是否出现过故障,在判断结果为网络在预定时间段内出现过故障的情况下,向高层发出预警信息。
图7是根据本发明实施例的一种基于深度学习的网络监控系统的结构示意图,如图7所示,该系统包括:监测模块71、数据仓库72、标记模块73、训练模块74、预测模块75、预警模块76、靶机77,下面对该系统的运行实施方案进行详细说明。
本网络监控系统由监测模块71、数据仓库72、标记模块73、训练模块74、预测模块75、预警模块76、靶机77等设备或系统模块组成,其中监测模块71又可称为网络监测模块,标记模块73又可称为数据标记处理模块,训练模块74又可称为深度学习训练模块,预警模块76又可称为深度学习预测模块或预警通知模块。系统中可包含若干个监测模块71,每一个监测模块都会对目标靶机进行网络监测,各模块之间的结构和连接方式如图7所示。
本发明实施例通过对网络传输数据及特征进行实时监控,并通过深度学习模型进行网络质量预测,并且主动发出预测性预警来通知高层业务,由高层业务决定是否该进行故障转移、网络拦截或线路切换等策略。该系统采用主动预测性预警的方法在具体实施中获得了良好的效果,具体实施方案如下:
监测机上部署监测模块71进行网络监测,网络监测通过ICMP、SNMP和HTTP等协议监控监测机到靶机77之间的网络质量,并且将大量监测到的原始数据先发送到预测模块75中,然后保存到数据仓库72;
训练模块74从数据仓库72中加载原始数据,然后调用标记模块73产生训练数据,对深度学习网络模型进行学习和训练,训练完成后将网络模型更新至深度学习预测模块;
预测模块75实时接收部署有监测模块71的监测机发送的原始数据,并根据预测模型进行预测,如果预测的结果是即将发生故障,则产生预测性预警;
预警模块76将预测模块75产生的预警信息发送给相应的业务系统,由业务系统决策具体优化策略。
故本发明实施例通过深度学习的技术能力来实现对传统网络监控数据的解释和预测,再结合系统平台的主动告警和实时切换功能实现对高层业务应用的无缝转移和切换,达到了有效降低网络故障对业务的影响的效果,增加了用户使用体验。
图8是根据本发明实施例的一种基于深度学习的网络监控系统的深度学习训练方法流程图,如8所示,该方法包括如下步骤:
步骤S801,加载模型和参数;
步骤S802,从数据仓库加载原始数据;
步骤S803,对数据进行标记和处理;
步骤S804,深度学习训练和学习;
步骤S805,生成并更新预测模型。
本发明实施例中的深度学习训练方法运用到该网络监控系统中,系统运行流程主要为:系统包含若干个监测模块,监测模块对所有靶机进行网络监测,并且将监测到的数据实时发送到深度学习预测模块,然后将数据保存到数据仓库中。其后,深度学习训练模块定时从数据仓库中加载数据并且使用事先设定好的网络模型和参数进行学习和训练,网络模型和参数是根据之前的研究实践所得出的最优效果数据。
其中,具体训练流程为:训练模块启动后首先加载网络模型和参数数据;训练模块调用从数据仓库中加载一定时间段的原始监控数据,然后调用数据标记处理模块对原始数据进行标记;数据标记处理模块根据原定的故障类型和故障标准对原始数据进行故障标记和数据处理,处理后生成训练数据;训练模块对训练数据进行学习,经过深度学习神经网络的充分学习之后,最终生成深度学习预测模型;训练模块将预测模型更新至预测模块中,并且更新预测模型更新标记,以备下次预测时使用。
图9是根据本发明实施例的一种基于深度学习的网络监控预测方法的流程图,如图9所示,该方法包括如下步骤:
步骤S901,预测模块启动;
步骤S902,加载预测模型;
步骤S903,接收处理监控数据;
步骤S904,深度学习预测;
步骤S905,发送预警信息。
本发明实施例中的网络监控预测方法运行流程主要为:系统包含若干个监测模块,每个监测模块可通过部署在监测机上进行监测,其中监测机被部署在全国各地不同的IDC机房中,监测模块通过既定的ICMP、SNMP和HTTP等多种协议对所有靶机进行网络监测,并且将监测到的数据实时发送到深度学习预测模块,然后将数据保存到数据仓库中。其后,深度学习训练模块定时从数据仓库中加载数据并且使用事先设定好的网络模型和参数进行学习和训练,网络模型和参数是根据之前的研究实践所得出的最优效果数据。得到深度学习预测模型后,深度学习预测模块从监测模块实时接收数据,并且根据预测模型产生预测结果,如果预测结果为故障的,主动向业务应用触发预警信息。
其中,具体监控预测流程为:预测模块定时检测预测模型更新标记,如果预测模型已更新则加载最新的预测模型,如果没有更新则保持原有模型不变;等待一段时间(时间s,可自行定义),实时接收监测模块发送过来的网络监测数据,并且将根据不同目标靶机、不同预测类型进行分类,并且连同基于时间序列的所有历史数据一起输入到预测模型中进行计算预测;如果预测结果为即将发生故障的,预测模块将该故障信息发送到预警模块,如果预测结果为正常,并且之前一段时间内(时间t,可自行定义)有故障状态的,也会触发恢复信息到预警模块;预警模块接收到预警后根据预测类型、靶机业务以及故障类型向高层次业务应用发起预警;高层业务应用收到预警后进行相关的故障转移(故障恢复)或者业务切换动作,以保障业务层面上的高可用;预测模块返回第一步重新开始新一轮预测。
通过本发明实施例提供的上述网络监控预测方法,具有如下优点和积极效果:
1、本实施例与传统的网络监控方法相比监测机采用ICMP、SNMP和HTTP等多种网络协议对目标靶机进行网络监测,可获取的数据特征更加丰富,预测准确度更高;
2、本实施例的故障标记可通过故障标准自动标记,完全不依赖于人工操作,实现了数据收集、标记、训练、预测完全自动化运行,达到了预测模型自动学习、自动进化的目的;
3、本实施例与传统的网络监控方法相比由于采用了深度学习预测模型,可以做到事前预警,提前切换网络线路或者将业务转移到稳定节点上,最大限度上保障了业务系统的高可用性;
4、通过深度学习预测进行故障切换的准确率和事前时间密切相关,针对预测失误代价较小的业务系统可以达到动态预测,实时转移,可达到最高的高可用状态。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种网络故障处理方法,其特征在于,包括:
获取网络监控数据;
通过故障预警模型,确定获取的所述网络监控数据对应的故障预警结果,其中,所述故障预警模型为使用多组数据通过机器学习训练得出的,所述多组数据中的每组数据均包括:网络监控数据和用于标识在所述网络监控数据下网络是否出现故障的故障结果标记;
对确定的所述故障预警结果进行处理。
2.根据权利要求1所述的方法,其特征在于,在通过所述故障预警模型,确定获取的所述网络监控数据对应的所述故障预警结果之前,还包括:
通过网络控制消息协议ICMP、简单网络管理协议SNMP和超文本传输协议HTTP获取用于训练出所述故障预警模型的所述多组数据;
根据通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行训练,得到所述故障预警模型。
3.根据权利要求2所述的方法,其特征在于,根据通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行训练,得到所述故障预警模型包括:
根据故障类型,对通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行分类;
依据对分类后的对应故障类型的多组数据进行训练,得到与所述故障类型对应的故障预警模型。
4.根据权利要求2所述的方法,其特征在于,在根据通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行训练,得到所述故障预警模型之后,还包括:
获取用于对所述故障预警模型进行更新的模型更新数据;
依据所述模型更新数据,对所述故障预警模型进行更新,得到更新后的故障预警模型。
5.根据权利要求1至4中任一项所述的方法,其特征在于,对确定的所述故障预警结果进行处理包括:
在所述故障预警结果表示所述网络将出现故障的情况下,向高层发出预警信息;
和/或,
在所述故障预警结果表示所述网络正常的情况下,判断所述网络在预定时间段内是否出现过故障,在判断结果为所述网络在所述预定时间段内出现过故障的情况下,向高层发出预警信息。
6.一种网络故障处理装置,其特征在于,包括:
第一获取模块,用于获取网络监控数据;
确定模块,用于通过故障预警模型,确定获取的所述网络监控数据对应的故障预警结果,其中,所述故障预警模型为使用多组数据通过机器学习训练得出的,所述多组数据中的每组数据均包括:网络监控数据和用于标识在所述网络监控数据下网络是否出现故障的故障结果标记;
处理模块,用于对确定的所述故障预警结果进行处理。
7.根据权利要求6所述的装置,其特征在于,还包括:
第二获取模块,用于在通过所述故障预警模型,确定获取的所述网络监控数据对应的所述故障预警结果之前,通过网络控制消息协议ICMP、简单网络管理协议SNMP和超文本传输协议HTTP获取用于训练出所述故障预警模型的所述多组数据;
训练模块,用于根据通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行训练,得到所述故障预警模型。
8.根据权利要求7所述的装置,其特征在于,所述训练模块包括:
分类单元,用于根据故障类型,对通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行分类;
得到单元,用于依据对分类后的对应故障类型的多组数据进行训练,得到与所述故障类型对应的故障预警模型。
9.根据权利要求7所述的装置,其特征在于,还包括:
第三获取模块,用于在根据通过所述ICMP、所述SNMP和所述HTTP获取的所述多组数据进行训练,得到所述故障预警模型之后,获取用于对所述故障预警模型进行更新的模型更新数据;
得到模块,用于依据所述模型更新数据,对所述故障预警模型进行更新,得到更新后的故障预警模型。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述处理模块包括:
第一预警单元,用于在所述故障预警结果表示所述网络将出现故障的情况下,向高层发出预警信息;
和/或,
第二预警单元,用于在所述故障预警结果表示所述网络正常的情况下,判断所述网络在预定时间段内是否出现过故障,在判断结果为所述网络在所述预定时间段内出现过故障的情况下,向高层发出预警信息。
CN201711091498.7A 2017-11-08 2017-11-08 网络故障处理方法和装置 Pending CN108092794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711091498.7A CN108092794A (zh) 2017-11-08 2017-11-08 网络故障处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711091498.7A CN108092794A (zh) 2017-11-08 2017-11-08 网络故障处理方法和装置

Publications (1)

Publication Number Publication Date
CN108092794A true CN108092794A (zh) 2018-05-29

Family

ID=62172049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711091498.7A Pending CN108092794A (zh) 2017-11-08 2017-11-08 网络故障处理方法和装置

Country Status (1)

Country Link
CN (1) CN108092794A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110011825A (zh) * 2019-02-26 2019-07-12 贵阳忆联网络有限公司 一种网络故障自动化智能处理方法及系统
CN110808864A (zh) * 2019-11-12 2020-02-18 国家电网有限公司 通信预警方法、装置及系统
CN112165400A (zh) * 2020-09-25 2021-01-01 天津大学 一种基于网络延迟对数据网络故障排查的系统
CN112486136A (zh) * 2019-09-11 2021-03-12 中科云谷科技有限公司 故障预警系统及方法
CN112560020A (zh) * 2021-02-19 2021-03-26 鹏城实验室 威胁攻击检测方法、装置、终端设备以及存储介质
CN114064196A (zh) * 2020-07-31 2022-02-18 慧与发展有限责任合伙企业 用于预测性保障的系统和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080115221A1 (en) * 2006-11-13 2008-05-15 Joo Beom Yun System and method for predicting cyber threat
CN104935464A (zh) * 2015-06-12 2015-09-23 北京奇虎科技有限公司 一种网站系统的故障预警方法和装置
CN104954181A (zh) * 2015-06-08 2015-09-30 北京集奥聚合网络技术有限公司 一种分布式集群设备故障预警方法
CN105900378A (zh) * 2014-01-06 2016-08-24 思科技术公司 使用基于早期学习机器的故障预测来触发重新路由
CN106209428A (zh) * 2016-06-28 2016-12-07 武汉合创源科技有限公司 一种网站故障监控预警方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080115221A1 (en) * 2006-11-13 2008-05-15 Joo Beom Yun System and method for predicting cyber threat
CN105900378A (zh) * 2014-01-06 2016-08-24 思科技术公司 使用基于早期学习机器的故障预测来触发重新路由
CN104954181A (zh) * 2015-06-08 2015-09-30 北京集奥聚合网络技术有限公司 一种分布式集群设备故障预警方法
CN104935464A (zh) * 2015-06-12 2015-09-23 北京奇虎科技有限公司 一种网站系统的故障预警方法和装置
CN106209428A (zh) * 2016-06-28 2016-12-07 武汉合创源科技有限公司 一种网站故障监控预警方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110011825A (zh) * 2019-02-26 2019-07-12 贵阳忆联网络有限公司 一种网络故障自动化智能处理方法及系统
CN112486136A (zh) * 2019-09-11 2021-03-12 中科云谷科技有限公司 故障预警系统及方法
CN112486136B (zh) * 2019-09-11 2022-03-15 中科云谷科技有限公司 故障预警系统及方法
CN110808864A (zh) * 2019-11-12 2020-02-18 国家电网有限公司 通信预警方法、装置及系统
CN114064196A (zh) * 2020-07-31 2022-02-18 慧与发展有限责任合伙企业 用于预测性保障的系统和方法
US11805005B2 (en) 2020-07-31 2023-10-31 Hewlett Packard Enterprise Development Lp Systems and methods for predictive assurance
CN112165400A (zh) * 2020-09-25 2021-01-01 天津大学 一种基于网络延迟对数据网络故障排查的系统
CN112560020A (zh) * 2021-02-19 2021-03-26 鹏城实验室 威胁攻击检测方法、装置、终端设备以及存储介质
CN112560020B (zh) * 2021-02-19 2022-08-02 鹏城实验室 威胁攻击检测方法、装置、终端设备以及存储介质

Similar Documents

Publication Publication Date Title
CN108092794A (zh) 网络故障处理方法和装置
Hosseini et al. Artificial intelligence for resilience enhancement of power distribution systems
WO2020211561A1 (zh) 数据的处理方法、装置、存储介质及电子装置
CN108259194A (zh) 网络故障预警方法及装置
CN108989075A (zh) 一种网络故障定位方法及系统
CN109769002A (zh) 一种基于区块链技术的分布式协同物联网异常检测方法
CN113516244B (zh) 一种智能运维方法、装置、电子设备及存储介质
CN114358106A (zh) 系统异常检测方法、装置、计算机程序产品及电子设备
EP3613173B1 (en) A method, an apparatus and a system for detecting alarm data
CN104252401A (zh) 一种基于权重的设备状态判断方法及其系统
CN108021485A (zh) 应用程序运行状态的监控方法及装置
CN107579858A (zh) 云主机的告警方法及装置、通信系统
EP4009586A1 (en) A system and method for automatically neutralizing malware
US11805140B2 (en) Systems and methods for utilizing a machine learning model to detect anomalies and security attacks in software-defined networking
Gilbert Artificial intelligence for autonomous networks
Garcia-Magarino et al. Survivability strategies for emerging wireless networks with data mining techniques: A case study with NetLogo and RapidMiner
CN109800211B (zh) 去中心化存储的控制方法、系统及相关设备
CN117435999A (zh) 一种风险评估方法、装置、设备以及介质
CN117240523A (zh) 一种基于结构信息原理的网络欺骗账户的检测方法
CN107122464A (zh) 一种辅助决策系统及方法
KR20210046423A (ko) 머신러닝 기반 보안관제 장치 및 방법
Zeng et al. Approximating behavioral equivalence of models using top-k policy paths.
CN113835973B (zh) 一种模型训练方法及相关装置
Detmold et al. Scalable surveillance software architecture
CN110738392B (zh) 基于贝叶斯网络模型的单终端多用户风控建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180529