CN104935464B - 一种网站系统的故障预警方法和装置 - Google Patents

一种网站系统的故障预警方法和装置 Download PDF

Info

Publication number
CN104935464B
CN104935464B CN201510324973.5A CN201510324973A CN104935464B CN 104935464 B CN104935464 B CN 104935464B CN 201510324973 A CN201510324973 A CN 201510324973A CN 104935464 B CN104935464 B CN 104935464B
Authority
CN
China
Prior art keywords
station system
monitoring data
web station
monitoring
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510324973.5A
Other languages
English (en)
Other versions
CN104935464A (zh
Inventor
华起
鲍坤夫
刘浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hongxiang Technical Service Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510324973.5A priority Critical patent/CN104935464B/zh
Publication of CN104935464A publication Critical patent/CN104935464A/zh
Application granted granted Critical
Publication of CN104935464B publication Critical patent/CN104935464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0636Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种网站系统的故障预警方法和装置,该方法包括:对网站系统进行实时监控,获得监控数据并保存到监控数据库中;对监控数据库中的监控数据进行分析,根据所述网站系统发生指定故障时的监控数据以及发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型;根据所述指定故障的预判模型以及实时监控得到的监控数据,对所述网站系统的同类故障进行预警。本方案通过对指定故障发生的回溯,获知指定故障发生前的监控数据的变化规律,进而能够对网站系统发生指定故障进行预判,对用户进行预警,使得用户能够及时制定故障应对决策,减少故障对网站系统的管理者和使用者造成的损失和影响,符合用户需求。

Description

一种网站系统的故障预警方法和装置
技术领域
本发明涉及互联网云监控领域,具体涉及一种网站系统的故障预警方法和装置。
背景技术
随着互联网技术的不断发展,网络与人们的工作、生活和娱乐的关系日益密切,人们对网络的依赖程度日益上升,网站系统发生故障,将会给人们带来极大的不便。
然而在现有技术中,网站系统的管理者在运营维护的过程中,往往无法及时有效地获知关于该网站系统可能发生某种故障的预警信息,进而无法提前指定相应的故障解决应对策略,只能在网站系统确实发生故障时才开始进行故障解决,时间长、效率低,不可避免地对管理者和使用者均造成一定的损失和影响,不符合用户需求。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网站系统的故障预警方法和装置。
依据本发明的一个方面,提供了一种网站系统的故障预警方法,该方法包括:
对网站系统进行实时监控,获得监控数据并保存到监控数据库中;
对监控数据库中的监控数据进行分析,根据所述网站系统发生指定故障时的监控数据以及发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型;
根据所述指定故障的预判模型以及实时监控得到的监控数据,对所述网站系统的同类故障进行预警。
可选地,所述根据所述指定故障的预判模型以及实时监控得到的监控数据,对所述网站系统的同类故障进行预警包括:
将实时监控得到的监控数据与所述指定故障的预判模型进行对比,如果在第二预设时间长度内实时监控得到的监控数据与所述指定故障的预判模型的匹配度达到预设条件,则确定所述网站系统将要发生所述指定故障,发送预警信号。
可选地,根据所述网站系统发生指定故障时的监控数据以及发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型包括:
根据所述网站系统发生的多次指定故障时的监控数据,以及每次发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型。
可选地,所述对网站系统进行实时监控,获得监控数据并保存到监控数据库中包括:
对所述网站系统的Web服务性能监控,获得网站系统的Web服务性能监控数据;
和/或,
对所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。
可选地,所述服务器资源包括如下中的一种或多种:CPU、硬盘、内存、网卡。
可选地,所述对所述网站系统的Web服务性能监控,获得网站系统的Web服务性能监控数据包括:模拟用户行为向所述网站系统发起访问请求,根据访问结果数据获得网站系统的Web服务性能监控数据;
所述对所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据包括:对互联网数据中心IDC机房中的所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。
可选地,所述模拟用户行为向所述网站系统发起访问请求,根据访问结果数据获得网站系统的Web服务性能监控数据包括:
从分布在不同地理位置的多个监控节点中选择指定个数的客户端作为监控机;
向各监控机下发访问所述网站系统的任务,并接收各监控机返回的访问结果数据;
根据各监控机返回的访问结果数据分析得到所述网站系统的Web服务性能监控数据。
依据本发明的另一个方面,提供了一种网站系统的故障预警装置,该装置包括:
监控单元,适于对网站系统进行实时监控,获得监控数据并保存到监控数据库中;
存储单元,适于存储监控数据库;
模型分析单元,适于对监控数据库中的监控数据进行分析,根据所述网站系统发生指定故障时的监控数据以及发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型;
故障预警单元,根据所述指定故障的预判模型以及实时监控得到的监控数据,对所述网站系统的同类故障进行预警。
可选地,所述故障预警单元,适于将实时监控得到的监控数据与所述指定故障的预判模型进行对比,如果在第二预设时间长度内实时监控得到的监控数据与所述指定故障的预判模型的匹配度达到预设条件,则确定所述网站系统将要发生所述指定故障,发送预警信号。
可选地,所述模型分析单元,适于根据所述网站系统发生的多次指定故障时的监控数据,以及每次发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型。
可选地,所述监控单元,适于对所述网站系统的Web服务性能监控,获得网站系统的Web服务性能监控数据;和/或,适于对所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。
可选地,所述监控单元监控的所述服务器资源包括如下中的一种或多种:CPU、硬盘、内存、网卡。
可选地,所述监控单元,适于通过模拟用户行为向所述网站系统发起访问请求,根据访问结果数据获得网站系统的Web服务性能监控数据;和/或,适于对互联网数据中心IDC机房中的所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。
可选地,所述监控单元,适于从分布在不同地理位置的多个监控节点中选择指定个数的客户端作为监控机,向各监控机下发访问所述网站系统的任务,并接收各监控机返回的访问结果数据,根据各监控机返回的访问结果数据分析得到所述网站系统的Web服务性能监控数据。
由上述可知,本发明提供的技术方案通过对网站系统的实时监控,在监控数据库中保存了详尽的监控数据;在指定故障发生时,基于在发生指定故障前的一段时间内的监控数据进行指定故障的关联回溯,能够重现指定故障从未发生到发生的整个过程链,即建立起指定故障的预判模型;以该指定故障的预判模型为参照,在对网站系统进行监控的过程中,当网站系统的监控数据的变化符合指定故障的预判模型时,则可以预判按照当前状态发展下去网站系统将发生指定故障,即对网站系统的同类故障进行预警。本方案通过对指定故障发生的回溯,获知指定故障发生前的监控数据的变化规律,将当前的监控数据的变化规律与指定故障发生前的监控数据的变化规律进行对比,进而能够对网站系统发生指定故障进行预判,对用户进行预警,使得用户能够及时制定故障应对决策,减少故障对网站系统的管理者和使用者造成的损失和影响,符合用户需求。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1A示出了根据本发明一个实施例的公有云监控部署的示意图;
图1B示出了根据本发明一个实施例的私有云监控部署的示意图;
图1C示出了根据本发明一个实施例的混合云监控部署的示意图;
图2示出了根据本发明一个实施例的一种网站系统的故障预警方法的流程图;
图3示出了根据本发明一个实施例的一种网站系统的故障预警装置的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
随着互联网的不断发展,互联网数据中心(IDC,Internet Data Center)应运而生,成为新世纪互联网产业中不可或缺的重要一环。IDC为互联网内容供应商、企业、媒体和各类网站提供大规模、高质量、安全可靠的专业化服务器托管、空间租用、网络带宽、应用服务供应(ASP,Application Service Provider)以及电子商务(EC,Electronic Commerce)等业务。
对于有监控需求的网站系统的管理者来说,将待监控的网站系统在IDC中进行公有云监控部署、私有云监控部署或混合云监控部署,即可获得云监控提供的HTTP监控、PING监控、DNS监控、服务器监控等多项监控服务。图1A示出了根据本发明一个实施例的公有云监控部署的示意图,图1B示出了根据本发明一个实施例的私有云监控部署的示意图,图1C示出了根据本发明一个实施例的混合云监控部署的示意图,本文以图1A-1C所示的云监控部署为背景,对一种网站系统的故障预警方法和装置进行详细说明。
此外,由于对于IDC来说,被监控网站系统的管理者是直接用户,因此本文中所出现的“用户”均指:相应被监控网站系统的管理者。
图2示出了根据本发明一个实施例的一种网站系统的故障预警方法的流程图。如图2所示,该方法包括:
步骤S210,对网站系统进行实时监控,获得监控数据并保存到监控数据库中。
步骤S220,对监控数据库中的监控数据进行分析,根据网站系统发生指定故障时的监控数据以及发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型。
步骤S230,根据指定故障的预判模型以及实时监控得到的监控数据,对网站系统的同类故障进行预警。
可见,图2所示的方法通过对网站系统的实时监控,在监控数据库中保存了详尽的监控数据;在指定故障发生时,基于在发生指定故障前的一段时间内的监控数据进行指定故障的关联回溯,能够重现指定故障从未发生到发生的整个过程链,即建立起指定故障的预判模型;以该指定故障的预判模型为参照,在对网站系统进行监控的过程中,当网站系统的监控数据的变化符合指定故障的预判模型时,则可以预判按照当前状态发展下去网站系统将发生指定故障,即对网站系统的同类故障进行预警。该方案通过对指定故障发生的回溯,获知指定故障发生前的监控数据的变化规律,将当前的监控数据的变化规律与指定故障发生前的监控数据的变化规律进行对比,进而能够对网站系统发生指定故障进行预判,对用户进行预警,使得用户能够及时制定故障应对决策,减少故障对网站系统的管理者和使用者造成的损失和影响,符合用户需求。
在本发明的一个实施例中,图2所示方法的步骤S230,根据指定故障的预判模型以及实时监控得到的监控数据,对网站系统的同类故障进行预警包括:将实时监控得到的监控数据与指定故障的预判模型进行对比,如果在第二预设时间长度内实时监控得到的监控数据与指定故障的预判模型的匹配度达到预设条件,则确定网站系统将要发生所述指定故障,发送预警信号。
例如,对网站系统A进行实时监控,记录各个时刻使用者在访问该网站系统A时,该网站系统A的响应速率,保存到监控数据库中。当网站系统A发生无法访问(即响应速率为0)的故障时,建立网站系统A在发生该故障前的第一预设长度时间段ΔT内的响应速率随监控时间的变化曲线,该曲线重现了无法访问的故障从未发生到发生的整个过程中,响应速率的变化规律;对该曲线进行拟合,确定该曲线满足的曲线方程为y=f(t),t∈[t0-ΔT,t0],其中y表示网站系统A的响应速率,t表示各响应速率对应的时刻,t0表示网站系统A发生无法访问的故障时的监控时刻,t0-ΔT表示发生故障前ΔT小时对应的监控时刻,则该曲线方程作为网站系统A发生无法访问的故障的预判模型,用于备案预防同类故障的发生。
基于上述建立起来的预判模型,在网站系统A的当前运行状态良好的情况下,建立网站系统A在当前第二预设长度时间段Δt内实时监控得到的响应速率随监控时间的变化曲线,该曲线重现了当前监控时间段内网站系统A的响应速率的变化规律,将该曲线与上述建立起来的预判模型进行对比,如果该曲线近似满足:y=f(t),t∈[t1-Δt,t1],t1<t0,其中,t1表示当前监控时刻,t1-Δt表示距离当前Δt小时前的监控时刻,则说明该曲线与网站系统A发生无法访问的故障的预判模型相匹配,确定网站系统A将要发生无法访问的故障,发送预警信号。在上述过程中,为了提高匹配的准确率,令第二预设长度时间段Δt小于等于第一预设长度时间段ΔT,即如果当前监控曲线与故障预判模型匹配时,当前监控曲线是落在故障预判模型对应的曲线的时间区间范围之内的。
为了进一步提高指定故障的预判模型的预判准确性,在本发明的一个实施例中,图2所示方法的步骤S220中,根据网站系统发生指定故障时的监控数据以及发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型包括:根据网站系统发生的多次指定故障时的监控数据,以及每次发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型。
沿用上文中提到的关于网站系统A的例子,通过对网站系统A发生的多次无法访问的故障分别进行回溯,能够重现多个该故障从未发生到发生的整个过程链,对应多条在发生该故障前的第一预设长度时间段ΔT内的响应速率随监控时间的变化曲线,由于在实际监控中存在不可避免的误差,则上述多条曲线相互之间存在或多或少的偏差,以故障发生时刻为基准时刻,对不同曲线上相同时刻对应的网站系统A的响应速率进行均值算法处理,将处理后的响应速率随时间变化的曲线对应的曲线方程作为网站系统A发生无法访问的故障的预判模型。其中,均值算法处理包括加权均值算法处理;进一步地,在一些实施例中,在对不同曲线上相同时刻对应的网站系统A的响应速率进行均值算法处理后,还可以根据得到的均值计算每条曲线的响应速率的方差,将方差较大的曲线舍弃掉,用剩余的曲线进行均值处理后得到网站系统A发生无法访问的故障的预判模型。
在本发明的一个实施例中,图2所示方法的步骤S210,对网站系统进行实时监控,获得监控数据并保存到监控数据库中包括:对网站系统的Web服务性能监控,获得网站系统的Web服务性能监控数据;和/或,对所网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。其中,所述服务器资源包括如下中的一种或多种:CPU、硬盘、内存、网卡。
上述监控过程是由云监控来实施的,在一个实施例中,
1)对网站系统的服务器资源的监控是指:对IDC机房中的所述网站系统的服务器资源进行监控,进而获取该网站系统的服务器资源的监控数据。
2)对网站系统的Web服务性能的监控是指:利用分布在不同地理位置的多个监控节点通过模拟普通网民行为访问被监控的网站系统,再通过分析返回的访问结果数据得到该网站系统的Web服务性能监控数据,具体包括:
步骤S211,从分布在不同地理位置的多个监控节点中选择指定个数的客户端作为监控机。
步骤S212,向各监控机下发访问网站系统的任务,并接收各监控机返回的访问结果数据。
本步骤中,各监控机在接收到访问网站系统的任务后,模拟用户行为向所述网站系统发起访问请求,根据访问结果数据获得网站系统的Web服务性能监控数据。
步骤S213,根据各监控机返回的访问结果数据分析得到所述网站系统的Web服务性能监控数据。
本实施例,利用分布在不同地理位置的多个监控节点通过模拟普通网民行为访问指定网站系统,再通过分析返回的访问结果数据得到指定网站系统的性能分析结果,实现了监控网站Web服务性能的方案。该监控方案所得到的监控数据能够反映Web系统在全国不同的监控节点进行访问时面临的性能问题,具有较高的准确性,符合后续进行故障预警的需求。
图3示出了根据本发明一个实施例的一种网站系统的故障预警装置的示意图。如图3所示,该网站系统的故障预警装置300包括:
监控单元310,适于对网站系统进行实时监控,获得监控数据并保存到监控数据库中。
存储单元320,适于存储监控数据库。
模型分析单元330,适于对监控数据库中的监控数据进行分析,根据网站系统发生指定故障时的监控数据以及发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型。
故障预警单元340,根据指定故障的预判模型以及实时监控得到的监控数据,对网站系统的同类故障进行预警。
可见,图3所示的装置通过对网站系统的实时监控,在监控数据库中保存了详尽的监控数据;在指定故障发生时,基于在发生指定故障前的一段时间内的监控数据进行指定故障的关联回溯,能够重现指定故障从未发生到发生的整个过程链,即建立起指定故障的预判模型;以该指定故障的预判模型为参照,在对网站系统进行监控的过程中,当网站系统的监控数据的变化符合指定故障的预判模型时,则可以预判按照当前状态发展下去网站系统将发生指定故障,即对网站系统的同类故障进行预警。该方案通过对指定故障发生的回溯,获知指定故障发生前的监控数据的变化规律,将当前的监控数据的变化规律与指定故障发生前的监控数据的变化规律进行对比,进而能够对网站系统发生指定故障进行预判,对用户进行预警,使得用户能够及时制定故障应对决策,减少故障对网站系统的管理者和使用者造成的损失和影响,符合用户需求。
在本发明的一个实施例中,图3所示装置的故障预警单元340,适于将实时监控得到的监控数据与指定故障的预判模型进行对比,如果在第二预设时间长度内实时监控得到的监控数据与指定故障的预判模型的匹配度达到预设条件,则确定网站系统将要发生所述指定故障,发送预警信号。
为进一步提高故障的预判模型的预判准确率,在本发明的一个实施例中,图3所示装置的模型分析单元330,适于根据所述网站系统发生的多次指定故障时的监控数据,以及每次发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型。
在本发明的一个实施例中,图3所示装置的监控单元310,适于对网站系统的Web服务性能监控,获得网站系统的Web服务性能监控数据;和/或,适于对所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。其中,所述监控单元监控的所述服务器资源包括如下中的一种或多种:CPU、硬盘、内存、网卡。
上述监控在实施过程中,监控单元310,适于通过模拟用户行为向网站系统发起访问请求,根据访问结果数据获得网站系统的Web服务性能监控数据;和/或,适于对互联网数据中心IDC机房中的网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。
具体地,监控单元310对网站系统的Web服务性能的监控是指:监控单元310从分布在不同地理位置的多个监控节点中选择指定个数的客户端作为监控机,向各监控机下发访问所述网站系统的任务,并接收各监控机返回的访问结果数据,根据各监控机返回的访问结果数据分析得到所述网站系统的Web服务性能监控数据。
图3所示装置的各实施例与图2所示方法的各实施例对应相同,上文中已详细说明,在此不再赘述。
综上所述,本发明提供的技术方案通过对网站系统的实时监控,在监控数据库中保存了详尽的监控数据;在指定故障发生时,基于在发生指定故障前的一段时间内的监控数据进行指定故障的关联回溯,能够重现指定故障从未发生到发生的整个过程链,即建立起指定故障的预判模型;以该指定故障的预判模型为参照,在对网站系统进行监控的过程中,当网站系统的监控数据的变化符合指定故障的预判模型时,则可以预判按照当前状态发展下去网站系统将发生指定故障,即对网站系统的同类故障进行预警。该方案通过对指定故障发生的回溯,获知指定故障发生前的监控数据的变化规律,将当前的监控数据的变化规律与指定故障发生前的监控数据的变化规律进行对比,进而能够对网站系统发生指定故障进行预判,对用户进行预警,使得用户能够及时制定故障应对决策,减少故障对网站系统的管理者和使用者造成的损失和影响,符合用户需求。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种网站系统的故障预警装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了A1、一种网站系统的故障预警方法,其中,该方法包括:
对网站系统进行实时监控,获得监控数据并保存到监控数据库中;
对监控数据库中的监控数据进行分析,根据所述网站系统发生指定故障时的监控数据以及发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型;
根据所述指定故障的预判模型以及实时监控得到的监控数据,对所述网站系统的同类故障进行预警。
A2、如A1所述的方法,其中,所述根据所述指定故障的预判模型以及实时监控得到的监控数据,对所述网站系统的同类故障进行预警包括:
将实时监控得到的监控数据与所述指定故障的预判模型进行对比,如果在第二预设时间长度内实时监控得到的监控数据与所述指定故障的预判模型的匹配度达到预设条件,则确定所述网站系统将要发生所述指定故障,发送预警信号。
A3、如A1所述的方法,其中,根据所述网站系统发生指定故障时的监控数据以及发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型包括:
根据所述网站系统发生的多次指定故障时的监控数据,以及每次发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型。
A4、如A1所述的方法,其中,所述对网站系统进行实时监控,获得监控数据并保存到监控数据库中包括:
对所述网站系统的Web服务性能监控,获得网站系统的Web服务性能监控数据;
和/或,
对所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。
A5、如A4所述的方法,其中,所述服务器资源包括如下中的一种或多种:CPU、硬盘、内存、网卡。
A6、如A4所述的方法,其中,
所述对所述网站系统的Web服务性能监控,获得网站系统的Web服务性能监控数据包括:模拟用户行为向所述网站系统发起访问请求,根据访问结果数据获得网站系统的Web服务性能监控数据;
所述对所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据包括:对互联网数据中心IDC机房中的所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。
A7、如A6所述的方法,其中,所述模拟用户行为向所述网站系统发起访问请求,根据访问结果数据获得网站系统的Web服务性能监控数据包括:
从分布在不同地理位置的多个监控节点中选择指定个数的客户端作为监控机;
向各监控机下发访问所述网站系统的任务,并接收各监控机返回的访问结果数据;
根据各监控机返回的访问结果数据分析得到所述网站系统的Web服务性能监控数据。
本发明还公开了B8、一种网站系统的故障预警装置,其中,该装置包括:
监控单元,适于对网站系统进行实时监控,获得监控数据并保存到监控数据库中;
存储单元,适于存储监控数据库;
模型分析单元,适于对监控数据库中的监控数据进行分析,根据所述网站系统发生指定故障时的监控数据以及发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型;
故障预警单元,根据所述指定故障的预判模型以及实时监控得到的监控数据,对所述网站系统的同类故障进行预警。
B9、如B8所述的装置,其中,
所述故障预警单元,适于将实时监控得到的监控数据与所述指定故障的预判模型进行对比,如果在第二预设时间长度内实时监控得到的监控数据与所述指定故障的预判模型的匹配度达到预设条件,则确定所述网站系统将要发生所述指定故障,发送预警信号。
B10、如B8所述的装置,其中,
所述模型分析单元,适于根据所述网站系统发生的多次指定故障时的监控数据,以及每次发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型。
B11、如B8所述的装置,其中,
所述监控单元,适于对所述网站系统的Web服务性能监控,获得网站系统的Web服务性能监控数据;和/或,适于对所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。
B12、如B11所述的装置,其中,所述监控单元监控的所述服务器资源包括如下中的一种或多种:CPU、硬盘、内存、网卡。
B13、如B11所述的装置,其中,
所述监控单元,适于通过模拟用户行为向所述网站系统发起访问请求,根据访问结果数据获得网站系统的Web服务性能监控数据;和/或,适于对互联网数据中心IDC机房中的所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。
B14、如B13所述的装置,其中,
所述监控单元,适于从分布在不同地理位置的多个监控节点中选择指定个数的客户端作为监控机,向各监控机下发访问所述网站系统的任务,并接收各监控机返回的访问结果数据,根据各监控机返回的访问结果数据分析得到所述网站系统的Web服务性能监控数据。

Claims (14)

1.一种网站系统的故障预警方法,其中,该方法包括:
对网站系统进行实时监控,获得监控数据并保存到监控数据库中;
对监控数据库中的监控数据进行分析,根据所述网站系统发生指定故障时的监控数据以及发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型;
根据所述指定故障的预判模型以及实时监控得到的监控数据,对所述网站系统的同类故障进行预警;
所述根据所述指定故障的预判模型以及实时监控得到的监控数据,对所述网站系统的同类故障进行预警包括:
将实时监控得到的监控数据与所述指定故障的预判模型进行对比,如果在第二预设时间长度内实时监控得到的监控数据与所述指定故障的预判模型的匹配度达到预设条件,则确定所述网站系统将要发生所述指定故障,发送预警信号。
2.如权利要求1所述的方法,其中,根据所述网站系统发生指定故障时的监控数据以及发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型包括:
根据所述网站系统发生的多次指定故障时的监控数据,以及每次发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型。
3.如权利要求1所述的方法,其中,所述对网站系统进行实时监控,获得监控数据并保存到监控数据库中包括:
对所述网站系统的Web服务性能监控,获得网站系统的Web服务性能监控数据;
和/或,
对所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。
4.如权利要求3所述的方法,其中,所述服务器资源包括如下中的一种或多种:CPU、硬盘、内存、网卡。
5.如权利要求3所述的方法,其中,
所述对所述网站系统的Web服务性能监控,获得网站系统的Web服务性能监控数据包括:模拟用户行为向所述网站系统发起访问请求,根据访问结果数据获得网站系统的Web服务性能监控数据;
所述对所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据包括:对互联网数据中心IDC机房中的所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。
6.如权利要求5所述的方法,其中,所述模拟用户行为向所述网站系统发起访问请求,根据访问结果数据获得网站系统的Web服务性能监控数据包括:
从分布在不同地理位置的多个监控节点中选择指定个数的客户端作为监控机;
向各监控机下发访问所述网站系统的任务,并接收各监控机返回的访问结果数据;
根据各监控机返回的访问结果数据分析得到所述网站系统的Web服务性能监控数据。
7.一种网站系统的故障预警装置,其中,该装置包括:
监控单元,适于对网站系统进行实时监控,获得监控数据并保存到监控数据库中;
存储单元,适于存储监控数据库;
模型分析单元,适于对监控数据库中的监控数据进行分析,根据所述网站系统发生指定故障时的监控数据以及发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型;
故障预警单元,根据所述指定故障的预判模型以及实时监控得到的监控数据,对所述网站系统的同类故障进行预警;
所述故障预警单元,适于将实时监控得到的监控数据与所述指定故障的预判模型进行对比,如果在第二预设时间长度内实时监控得到的监控数据与所述指定故障的预判模型的匹配度达到预设条件,则确定所述网站系统将要发生所述指定故障,发送预警信号。
8.如权利要求7所述的装置,其中,
所述模型分析单元,适于根据所述网站系统发生的多次指定故障时的监控数据,以及每次发生指定故障前的第一预设长度时间段内的监控数据,建立指定故障的预判模型。
9.如权利要求7所述的装置,其中,
所述监控单元,适于对所述网站系统的Web服务性能监控,获得网站系统的Web服务性能监控数据;和/或,适于对所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。
10.如权利要求9所述的装置,其中,所述监控单元监控的所述服务器资源包括如下中的一种或多种:CPU、硬盘、内存、网卡。
11.如权利要求9所述的装置,其中,
所述监控单元,适于通过模拟用户行为向所述网站系统发起访问请求,根据访问结果数据获得网站系统的Web服务性能监控数据;和/或,适于对互联网数据中心IDC机房中的所述网站系统的服务器资源进行监控,获取网站系统的服务器资源的监控数据。
12.如权利要求11所述的装置,其中,
所述监控单元,适于从分布在不同地理位置的多个监控节点中选择指定个数的客户端作为监控机,向各监控机下发访问所述网站系统的任务,并接收各监控机返回的访问结果数据,根据各监控机返回的访问结果数据分析得到所述网站系统的Web服务性能监控数据。
13.一种电子设备,其中,包括:处理器和被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行根据权利要求1-6中任一项所述的方法。
CN201510324973.5A 2015-06-12 2015-06-12 一种网站系统的故障预警方法和装置 Active CN104935464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510324973.5A CN104935464B (zh) 2015-06-12 2015-06-12 一种网站系统的故障预警方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510324973.5A CN104935464B (zh) 2015-06-12 2015-06-12 一种网站系统的故障预警方法和装置

Publications (2)

Publication Number Publication Date
CN104935464A CN104935464A (zh) 2015-09-23
CN104935464B true CN104935464B (zh) 2018-07-06

Family

ID=54122440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510324973.5A Active CN104935464B (zh) 2015-06-12 2015-06-12 一种网站系统的故障预警方法和装置

Country Status (1)

Country Link
CN (1) CN104935464B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020073688A1 (zh) * 2018-10-08 2020-04-16 平安科技(深圳)有限公司 预测网络设备异常的方法、装置、设备及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789189B (zh) * 2016-12-05 2020-06-26 深圳市彬讯科技有限公司 一种soa服务实时监控上报与性能度量系统
WO2018214009A1 (zh) * 2017-05-23 2018-11-29 深圳中兴力维技术有限公司 服务器监控方法及系统
CN107493208A (zh) * 2017-08-30 2017-12-19 苏州朗动网络科技有限公司 一种中大型业务系统的全链路性能监控方法及系统
CN107579771B (zh) * 2017-09-26 2019-09-10 中国人民解放军国防信息学院 一种基于单条告警向前回溯的光纤传送网智能告警方法
CN108092794A (zh) * 2017-11-08 2018-05-29 北京百悟科技有限公司 网络故障处理方法和装置
CN108491305B (zh) * 2018-03-09 2021-05-25 网宿科技股份有限公司 一种服务器故障的检测方法及系统
CN109002261B (zh) * 2018-07-11 2022-03-22 佛山市云端容灾信息技术有限公司 差异区块大数据分析方法、装置、存储介质及服务器
CN109917758A (zh) * 2019-01-25 2019-06-21 北京交通大学 一种工业设备数据的处理方法及系统
CN110311825A (zh) * 2019-08-08 2019-10-08 河南中烟工业有限责任公司 一种通过预警回溯快速处置通讯网络故障的方法
CN114647531B (zh) * 2022-05-19 2022-07-29 武汉四通信息服务有限公司 故障解决方法、故障解决系统、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1972210A (zh) * 2006-11-21 2007-05-30 华为技术有限公司 网络监控方法及其系统
CN103401699A (zh) * 2013-07-18 2013-11-20 深圳先进技术研究院 一种云数据中心安全监控预警系统及方法
CN103812699A (zh) * 2014-02-17 2014-05-21 无锡华云数据技术服务有限公司 基于云计算的监控管理系统
CN104102773A (zh) * 2014-07-05 2014-10-15 山东鲁能软件技术有限公司 一种设备故障预警及状态监测方法
CN104618343A (zh) * 2015-01-06 2015-05-13 中国科学院信息工程研究所 一种基于实时日志的网站威胁检测的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1972210A (zh) * 2006-11-21 2007-05-30 华为技术有限公司 网络监控方法及其系统
CN103401699A (zh) * 2013-07-18 2013-11-20 深圳先进技术研究院 一种云数据中心安全监控预警系统及方法
CN103812699A (zh) * 2014-02-17 2014-05-21 无锡华云数据技术服务有限公司 基于云计算的监控管理系统
CN104102773A (zh) * 2014-07-05 2014-10-15 山东鲁能软件技术有限公司 一种设备故障预警及状态监测方法
CN104618343A (zh) * 2015-01-06 2015-05-13 中国科学院信息工程研究所 一种基于实时日志的网站威胁检测的方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020073688A1 (zh) * 2018-10-08 2020-04-16 平安科技(深圳)有限公司 预测网络设备异常的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN104935464A (zh) 2015-09-23

Similar Documents

Publication Publication Date Title
CN104935464B (zh) 一种网站系统的故障预警方法和装置
US11438214B2 (en) Operational analytics in managed networks
US20210081567A1 (en) Monitoring data sharing and privacy policy compliance
US11184241B2 (en) Topology-aware continuous evaluation of microservice-based applications
US10373094B2 (en) Automated model based root cause analysis
JP2018510576A (ja) マルチテナント環境のためのネットワークフローログ
US20210021595A1 (en) Change Monitoring and Detection for a Cloud Computing Environment
US20190147354A1 (en) Event identification through machine learning
US10185614B2 (en) Generic alarm correlation by means of normalized alarm codes
US10691516B2 (en) Measurement and visualization of resiliency in a hybrid IT infrastructure environment
Rochim et al. Design Log Management System of Computer Network Devices Infrastructures Based on ELK Stack
US10644947B2 (en) Non-invasive diagnosis of configuration errors in distributed system
US20190286539A1 (en) Entity reconciliation based on performance metric evaluation
CN110196792A (zh) 故障预测方法、装置、计算设备及存储介质
US20180276096A1 (en) On demand monitoring mechanism to identify root cause of operation problems
US10778785B2 (en) Cognitive method for detecting service availability in a cloud environment
CN116194894A (zh) 原生云应用程序的故障定位
US10459834B2 (en) Run time and historical workload report scores for customer profiling visualization
Amjad et al. Web application performance analysis of E-commerce sites in Bangladesh: an empirical study
JP7320443B2 (ja) 互換性のあるモジュールを特定するシステムおよび方法
US11212162B2 (en) Bayesian-based event grouping
JP2023502910A (ja) 運用管理におけるイベント・ストームの構成要素イベントの識別
US20080162687A1 (en) Data acquisition system and method
Cardoso et al. Architecture for highly configurable dashboards for operations monitoring and support
US11012463B2 (en) Predicting condition of a host for cybersecurity applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220803

Address after: 300450 No. 9-3-401, No. 39, Gaoxin 6th Road, Binhai Science Park, Binhai New Area, Tianjin

Patentee after: 3600 Technology Group Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230711

Address after: 1765, floor 17, floor 15, building 3, No. 10 Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: Beijing Hongxiang Technical Service Co.,Ltd.

Address before: 300450 No. 9-3-401, No. 39, Gaoxin 6th Road, Binhai Science Park, Binhai New Area, Tianjin

Patentee before: 3600 Technology Group Co.,Ltd.