CN103378982A - 互联网业务运行监测方法和系统 - Google Patents

互联网业务运行监测方法和系统 Download PDF

Info

Publication number
CN103378982A
CN103378982A CN201210112854XA CN201210112854A CN103378982A CN 103378982 A CN103378982 A CN 103378982A CN 201210112854X A CN201210112854X A CN 201210112854XA CN 201210112854 A CN201210112854 A CN 201210112854A CN 103378982 A CN103378982 A CN 103378982A
Authority
CN
China
Prior art keywords
framework layer
service
abnormity point
source
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210112854XA
Other languages
English (en)
Inventor
罗伟
詹潮江
杨帅
赵耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201210112854XA priority Critical patent/CN103378982A/zh
Priority to JP2014556914A priority patent/JP5982015B2/ja
Priority to KR1020147022788A priority patent/KR20140145115A/ko
Priority to PCT/CN2013/072852 priority patent/WO2013155912A1/zh
Priority to US14/238,650 priority patent/US20140164840A1/en
Publication of CN103378982A publication Critical patent/CN103378982A/zh
Priority to US14/197,667 priority patent/US20140189431A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0847Transmission error
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/27467Methods of retrieving data
    • H04M1/27475Methods of retrieving data using interactive graphical means or pictorial representations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72439User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for image or video messaging

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Environmental & Geological Engineering (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种互联网业务运行监测方法及系统,所述方法包括:获取互联网业务的监控数据,并从所述监控数据中提取异常数据;根据所述异常数据获取对应的异常服务;根据所述异常服务在架构层进行定位得到运行故障源。所述系统包括:数据监测模块,用于获取互联网业务的监控数据,并从所述监控数据中提取异常数据;异常服务获取模块,用于根据所述异常数据获取对应的异常服务;检测模块,用于根据所述异常服务在架构层进行定位得到运行故障源。采用本发明能准确地进行故障定位。

Description

互联网业务运行监测方法和系统
技术领域
本发明涉及业务监测技术,特别是涉及一种互联网业务运行监测方法和系统。
背景技术
网络中运行着各种各样的业务,例如,开放平台中的第三方应用、虚拟虚拟网络社区以及视频播放网站等,常常依赖于运行环境为用户提供服务,该运行环境包括了为业务提供逻辑处理、数据存储的各种要素。在业务的运行过程中,必须密切关注业务以及运行环境所出现的故障,并及时分析和处理。
传统的业务监测方法对每一类运行环境分别进行实时监测,该运行环境包括了网络环境、服务器等设备、业务组件以及业务软件等,若监测到某一运行环境出现异常状况,将通过短信或者邮件的形式发出告警,进而使得进行业务维护的人员能够通过查看告警内容获知发生故障的运行环境。
然而,各类运行环境彼此是相互依赖的,为用户提高稳定正常运行的业务,例如,业务软件依赖于业务组件的正常运行,业务软件和业务组件都依赖于网络环境、服务器等运行环境,因此,业务运行过程中当监测到某一运行环境故障时常常引发大规模的告警,进而向进行业务维护的人员发出大量的告警内容,无法准确地实现故障定位。
发明内容
基于此,有必要针对业务监测中出现大规模告警的问题,提供一种能准确地进行故障定位的互联网业务运行监测方法。
一种互联网业务运行监测方法,包括如下步骤:
获取互联网业务的监控数据,并从所述监控数据中提取异常数据;
根据所述异常数据获取对应的异常服务;
根据所述异常服务在架构层进行定位得到运行故障源。
在其中一个实施例中,所述根据所述异常服务在架构层进行定位得到运行故障源的步骤为:
检测所述异常服务所在的架构层是否存在异常,若是,则记录所述异常服务所在的架构层对应的异常点;
以所述异常服务相关的下一架构层为起始层按照从前端到后端的顺序逐层检测,判断检测的架构层是否存在异常,若是,则记录所述检测的架构层对应的异常点;
根据所述架构层在架构层级中的顺序处理记录的异常点得到运行故障源。
在其中一个实施例中,所述根据所述异常服务在架构层进行定位得到运行故障源的步骤还包括:
判断所述异常服务所在的架构层是否存在与所述异常服务相关的下一架构层,若是,则进入所述以所述异常服务相关的下一架构层为起始层按照从前端到后端的顺序逐层检测的步骤;
若否,则定位所述记录的异常点为运行故障源。
在其中一个实施例中,所述根据所述架构层在架构层级中的顺序处理记录的异常点得到运行故障源的步骤为:
根据所述架构层对应的优先级从所述记录的异常点中提取最大优先级对应的异常点作为运行故障源。
在其中一个实施例中,所述根据所述架构层在架构层级中的顺序处理记录的异常点得到运行故障源的步骤为:
从所述记录的异常点中提取与最后端的架构层对应的异常点;
将所述提取的异常点定位为运行故障源。
一种互联网业务运行监测系统,包括:
数据监测模块,用于获取互联网业务的监控数据,并从所述监控数据中提取异常数据;
异常服务获取模块,用于根据所述异常数据获取对应的异常服务;
检测模块,用于根据所述异常服务在架构层进行定位得到运行故障源。
在其中一个实施例中,所述检测模块包括:
初始检测单元,用于检测所述异常服务所在的架构层是否异常,若是,则记录所述异常服务所在的架构层对应的异常点;
逐层检测单元,用于以所述异常服务相关的下一架构层为起始层按照从前端到后端的顺序逐层检测,判断检测的架构层是否存在异常,若是,则记录所述检测的架构层对应的异常点;
处理单元,用于根据所述架构层在架构层级中的顺序处理记录的异常点得到运行故障源。
在其中一个实施例中,检测模块还包括:
层级判断单元,用于判断所述异常服务所在的架构层是否存在与所述异常服务相关的下一架构层,若是,则通知所述逐层检测单元,若否,则通知所述处理单元;
所述处理单元还用于定位所述记录的异常点为运行故障源。
在其中一个实施例中,所述处理单元还用于根据所述架构层对应的优先级从所述记录的异常点中提取最大优先级对应的异常点作为运行故障源。
在其中一个实施例中,所述处理单元还用于从所述记录的异常点中提取与最后端的架构层对应的异常点,将所述提取的异常点定位为运行故障源。
上述互联网业务运行监测方法和系统中,对于出现异常的服务按照架构层级检测与该服务相关的架构层以得出现运行故障源,从而获知每一架构层所出现的故障是否成为造成服务异常的主要因素,进而在多个架构层中准确地实现运行故障的定位,不再需要进行业务维护的人员对大量的告警内容一一分析。
附图说明
图1为一个实施例中互联网业务运行监测方法的流程图;
图2为一个实施例中架构体系的示意图;
图3为一个实施例中根据异常服务在架构层进行定位得到运行故障源的方法流程图;
图4为一个实施例中根据架构层在架构层级中的顺序处理记录的异常点得到运行故障源的方法流程图;
图5为一个实施例中互联网业务运行监测系统的结构示意图;
图6为一个实施例中检测模块的结构示意图;
图7为另一个实施例中检测模块的结构示意图。
具体实施方式
如图1所示,在一个实施例中,一种互联网业务运行监测方法,包括如下步骤:
步骤S10,获取互联网业务的监控数据,并从监控数据中提取异常数据。
本实施例中,监控业务的运行过程得到监控数据,用于明确地反映业务健康与否,例如,该监控数据可以是用户在线量、用户投诉量以及访问某一网页产生的延时等。监控数据包括了正常运行状态下的数据以及运行出现故障时的异常数据,例如,异常数据可以是指示某一网页不可用的数据。
步骤S30,根据异常数据获取对应的异常服务。
本实施例中,业务运行过程中通过各种服务为用户提供多种功能,例如,在某一业务中,多个服务所提供的各种小功能形成了该应用所拥有的处理能力。根据提取的异常数据得到出现故障的异常服务,进而通过后续的处理过程得到造成该服务出现故障的根源。
步骤S50,根据异常服务在架构层进行定位得到运行故障源。
本实施例中,业务运行的架构体系包括了接入层、逻辑层以及数据层,其中,逻辑层为用户提供显示界面的页面以及响应用户的各种请求,并进行逻辑处理,数据层用于进行数据存储,业务运行于架构体系中响应用户的各种请求。具体的,架构体系为层状模型,按照从前端到后端的顺序包括接入层、逻辑层以及数据层,其中,接入层用于处理用户的请求,并将请求转发至后端的逻辑层;逻辑层处理接入层输入的用户的请求,使用数据层中存储的数据进行业务逻辑的处理,进而将处理结构返回给接入层;数据层用于缓存或持久性地保存数据。
如图2所示,无论架构层是接入层或逻辑层,还是数据层,每一层级都将包括了业务软件、业务组件、基础网络、基础设备以及基础设施等要素。其中,业务组件为公共软件包或者软件框架包,例如,WebServer组件、网络通信组件和数据库组件等;业务软件运行在业务组件上,大多是直接提供给用户访问的程序,例如,以为用户提供显示界面的页面的接口(Common Gateway Interface,简称cgi)为例;基础设备为服务器、交换机以及路由器等设备;基础设施为机房、供电设备以及机房空间等设施。
此外,业务运行架构体系还可以直接按照业务软件、业务组件、基础设备以及基础设施进行架构层级的设置,而不再进行接入层、逻辑层以及数据层的划分。
在业务运行架构体系中,除了对异常服务所在的架构层进行检测之外,还需对与该异常服务相关的多个架构层进行检测,以实现运行故障源的定位,得到造成服务出现异常的故障根源。
如图3所示,在一个实施例中,上述步骤S50的具体过程为:
步骤S510,检测异常服务所在的架构层是否存在异常,若是,则进入步骤S520,若否,则结束。
本实施例中,检测异常服务所在的架构层中各个环节是否异常,并记录该架构层所出现的异常点。根据架构层以及架构层中要素的不同,所对应的异常点也各不相同。具体的,异常点用于判定架构层以及架构层中的要素是否异常,是一个异常现象的描述,例如,对架构层的基础设备而言,异常点为服务器无法连通,对于基础网络而言,异常点为网络丢包率超过30%。
步骤S520,记录异常服务所在的架构层对应的异常点。
步骤S530,以异常服务相关的下一架构层为起始层按照从前端到后端的顺序逐层检测,判断检测的架构层是否存在异常,若是,则进入步骤S540,若否,则结束。
本实施例中,任一架构层的服务常常都是依赖于下一架构层中的某些服务实现相应功能的,这些服务即为下游服务,因此,需以下一架构层为起始层逐层进行检测以得到每一架构层所存在的异常点。具体的,按照从前端到后端的顺序对每一架构层进行检测,判断检测的架构层中是否存在下游服务,若是,则进一步判断下游服务是否存在异常点,若下游服务中存在异常点,则记录该异常点。其中,在业务运行架构体系中,从前端到后端的顺序指的是按照接入层、逻辑层以及数据层的顺序或按照业务软件、业务组件、基础设备以及基础设施的顺序。
在另一个实施例中,上述步骤S50还包括:
判断异常服务所在的架构层是否存在与异常服务相关的下一架构层,若是,则进入步骤S530,若否,则定位记录的异常点为运行故障源。
本实施例中,当判断到异常服务并没有依赖于下一架构层中的服务即可正常地运行时,异常服务所在的架构层对应的异常点即为运行故障源,不需要再逐层进行检测。具体的,判断下一架构层中是否存在相关的服务,即下游服务,判断得到的下游服务是与进行判断的异常服务密切相关,且进行判断的异常服务是依赖于下游服务运行的。
步骤S540,记录所述检测的架构层对应的异常点
步骤S550,根据架构层在架构层级中的顺序处理记录的异常点得到运行故障源。
本实施例中,对记录的多个异常点进行汇总,并根据架构层级中前端到后端的顺序进行处理实现运行故障源的定位。在业务的运行过程中,任一架构层所出现的异常点均可能造成服务的异常,因此汇总所有的异常点可以确定出可能性最大的故障原因,实现各个架构层中的关联分析。具体地,根据架构层在架构层级中的顺序对记录的若干个异常点进行关联分析得到运行故障源。
在一个实施例中,上述步骤S550的具体过程为:根据架构层对应的优先级从记录的异常点中提取最大优先级对应的异常点作为运行故障源。
本实施例中,预先为每一架构层设置优先级,用于标识架构层中异常点造成服务异常的可能性大小,也就是说,优先级也表示了产生服务异常的影响因子。优先级最大的异常点是产生服务异常的影响因子最大的异常点,成为运行故障源的可能性将是最大的。因此,可根据架构层对应的优先级从记录的若干个异常点中提取优先级最大的异常点,进而根据提取的异常点实现故障源的定位。
对于最大优先级中的多个异常点,还根据架构层中要素的优先级确定哪一个异常点为运行故障源。例如,若基础设施发生故障,则必定会影响基础设备、基础组件和基础软件,因此,若基础设施和基础设备中均存在异常点,则优先认为基础设施中的异常点为运行故障源,其它类推。
如图4所示,在另一个实施例中,上述步骤S550的具体过程包括:
步骤S551,从记录的异常点中提取与最后端的架构层对应的异常点。
本实施例中,根据架构层从前端到后端的顺序从若干个记录的异常点中提取最后端架构层对应的异常点,位于最后端的架构层所产生的异常点成为服务出现异常的根源。
步骤S553,将提取的异常点定位为运行故障源。
在一个实施例中,上述互联网业务运行监测方法还包括将运行故障源以及异常点展示于故障定位页面中,以方便进行业务维护的人员查看。
如图5所示,在一个实施例中,一种互联网业务运行监测系统包括数据监测模块10、异常服务获取模块30以及检测模块50。
数据监测模块10,用于获取互联网业务的监控数据,并从监控数据中提取异常数据。
本实施例中,监控业务的运行过程得到监控数据,用于明确地反映业务健康与否,例如,该监控数据可以是用户在线量、用户投诉量以及访问某一网页产生的延时等。监控数据包括了正常运行状态下的数据以及运行出现故障时的异常数据,例如,异常数据可以是指示某一网页不可用的数据。
异常服务获取模块30,用于根据异常数据获取对应异常服务。
本实施例中,业务运行过程中通过各种服务为用户提供多种功能,例如,在某一业务中,多个服务所提供的各种小功能形成了该应用所拥有的处理能力。异常服务获取模块30根据提取的异常数据得到出现故障的异常服务,进而通过后续的处理过程得到造成该服务出现故障的根源。
检测模块50,用于根据异常服务在架构层进行定位得到运行故障源。
本实施例中,业务运行的架构体系包括了接入层、逻辑层以及数据层,其中,逻辑层为用户提供显示界面的页面以及响应用户的各种请求,并进行逻辑处理,数据层用于进行数据存储,业务运行于架构体系中响应用户的各种请求。具体的,架构体系为层状模型,按照从前端到后端的顺序包括接入层、逻辑层以及数据层,其中,接入层用于处理用户的请求,并将请求转发至后端的逻辑层;逻辑层处理接入层输入的用户的请求,使用数据层中存储的数据进行业务逻辑的处理,进而将处理结构返回给接入层;数据层用于缓存或持久性地保存数据。
无论架构层是接入层或逻辑层,还是数据层,每一层级都将包括了业务软件、业务组件、基础网络、基础设备以及基础设施等要素。其中,业务组件为公共软件包或者软件框架包;业务软件运行在业务组件上,大多是直接提供给用户访问的程序;基础设备为服务器、交换机以及路由器等设备;基础设施为机房、供电设备以及机房空间等设施。
此外,业务运行架构体系还可以直接按照业务软件、业务组件、基础设备以及基础设施进行架构层级的设置,而不再进行接入层、逻辑层以及数据层的划分。
在业务运行架构体系中,除了对异常服务所在的架构层进行检测之外,检测模块50还需对与该异常服务相关的多个架构层进行检测,以实现运行故障源的定位,得到造成服务出现异常的故障根源。
如图6所示,上述检测模块50包括初始检测单元510、逐层检测单元530以及处理单元550。
初始检测单元510,用于检测异常服务所在的架构层是否异常,若是,则记录异常服务所在的架构层对应的异常点,若否,则停止执行。
本实施例中,初始检测单元510检测异常服务所在的架构层中各个环节是否异常,并记录该架构层所出现的异常点。根据架构层以及架构层中要素的不同,所对应的异常点也各不相同。具体的,异常点用于判定架构层以及架构层中的要素是否异常,是一个异常现象的描述。
逐层检测单元530,用于以异常服务相关的下一架构层为起始层从前端到后端的顺序逐层检测,判断检测的架构层是否存在异常,若是,则记录检测架构层对应的异常点。
本实施例中,任一架构层的服务常常都是依赖于下一架构层中的某些服务实现相应功能的,这些服务即为下游服务,因此,逐层检测单元530需以下一架构层为起始层逐层进行检测以得到每一架构层所存在的异常点。具体的,逐层检测单元530按照从前端到后端的顺序对每一架构层进行检测,判断检测的架构层中是否存在下游服务,若是,则进一步判断下游服务是否存在异常点,若下游服务中存在异常点,则记录该异常点。其中,在业务运行架构体系中,从前端到后端的顺序指的是按照接入层、逻辑层以及数据层的顺序或按照业务软件、业务组件、基础设备以及基础设施的顺序。
处理单元550,用于根据架构层在架构层级中的顺序处理记录的异常点得到运行故障源。
本实施例中,处理单元550对记录的多个异常点进行汇总,并根据架构层级中前端到后端的顺序进行处理实现运行故障源的定位。在业务的运行过程中,任一架构层所出现的异常点均可能造成服务的异常,因此汇总所有的异常点可以确定出可能性最大的故障原因,实现各个架构层中的关联分析。具体地,处理单元550根据架构层在架构层级中的顺序对记录的若干个异常点进行关联分析得到运行故障源。
如图7所示,上述检测模块50还包层级判断单元540,层级判断单元540用于判断异常服务所在的架构层是否存在与异常服务相关的下一架构层,若是,则通知逐层检测单元530,若否,则通知处理单元550。
本实施例中,当层级判断单元540判断到异常服务并没有依赖于下一架构层中的服务即可正常地运行时,异常服务所在的架构层对应的异常点即为运行故障源,不需要再逐层进行检测。具体的,层级判断单元540判断下一架构层中是否存在相关的服务,即下游服务,判断得到的下游服务是与进行判断的异常服务密切相关,且进行判断的异常服务是依赖于下游服务运行的。
上述处理单元550还用于定位记录的异常点为运行故障源。
在一实施例中,上述处理单元550还用于根据架构层对应的优先级从记录的异常点中提取最大优先级对应的异常点作为运行故障源。
本实施例中,预先为每一架构层设置优先级,用于标识架构层中异常点造成服务异常的可能性大小,也就是说,优先级也表示了产生服务异常的影响因子。优先级最大的异常点是产生服务异常的影响因子最大的异常点,成为运行故障源的可能性将是最大的。因此,处理单元550可根据架构层对应的优先级从记录的若干个异常点中提取优先级最大的异常点,进而根据提取的异常点实现故障源的定位。
对于最大优先级中的多个异常点,处理单元550还根据架构层中要素的优先级确定哪一个异常点为运行故障源。例如,若基础设施发生故障,则必定会影响基础设备、基础组件和基础软件,因此,若基础设施和基础设备中均存在异常点,则优先认为基础设施中的异常点为运行行故障源,其它类推。
在另一个实施例中,上述处理单元550还用于从记录的异常点中提取与最后端的架构层对应的异常点,将提取的异常点定位为运行故障源。
本实施例中,处理单元550根据架构层从前端到后端的顺序从若干个记录的异常点中提取最后端架构层对应的异常点,位于最后端的架构层所产生的异常点成为服务出现异常的根源。
在一个实施例中,上述互联网业务运行监测系统还将运行故障源以及异常点展示于故障定位页面中,以方便进行业务维护的人员查看。
上述互联网业务运行监测方法和系统中,对于出现异常的服务按照架构层级检测与该服务相关的架构层以得出现运行故障源,从而获知每一架构层所出现的故障是否成为造成服务异常的主要因素,进而在多个架构层中准确地实现运行故障的定位,不再需要进行业务维护的人员对大量的告警内容一一分析。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种互联网业务运行监测方法,包括如下步骤:
获取互联网业务的监控数据,并从所述监控数据中提取异常数据;
根据所述异常数据获取对应的异常服务;
根据所述异常服务在架构层进行定位得到运行故障源。
2.根据权利要求1所述的互联网业务运行监测方法,其特征在于,所述根据所述异常服务在架构层进行定位得到运行故障源的步骤为:
检测所述异常服务所在的架构层是否存在异常,若是,则记录所述异常服务所在的架构层对应的异常点;
以所述异常服务相关的下一架构层为起始层按照从前端到后端的顺序逐层检测,判断检测的架构层是否存在异常,若是,则记录所述检测的架构层对应的异常点;
根据所述架构层在架构层级中的顺序处理记录的异常点得到运行故障源。
3.根据权利要求2所述的互联网业务运行监测方法,其特征在于,所述根据所述异常服务在架构层进行定位得到运行故障源的步骤还包括:
判断所述异常服务所在的架构层是否存在与所述异常服务相关的下一架构层,若是,则进入所述以所述异常服务相关的下一架构层为起始层按照从前端到后端的顺序逐层检测的步骤;
若否,则定位所述记录的异常点为运行故障源。
4.根据权利要求2所述的互联网业务运行监测方法,其特征在于,所述根据所述架构层在架构层级中的顺序处理记录的异常点得到运行故障源的步骤为:
根据所述架构层对应的优先级从所述记录的异常点中提取最大优先级对应的异常点作为运行故障源。
5.根据权利要求2所述的互联网业务运行监测方法,其特征在于,所述根据所述架构层在架构层级中的顺序处理记录的异常点得到运行故障源的步骤为:
从所述记录的异常点中提取与最后端的架构层对应的异常点;
将所述提取的异常点定位为运行故障源。
6.一种互联网业务运行监测系统,其特征在于,包括:
数据监测模块,用于获取互联网业务的监控数据,并从所述监控数据中提取异常数据;
异常服务获取模块,用于根据所述异常数据得到对应的异常服务;
检测模块,用于根据所述异常服务在架构层进行定位得到运行故障源。
7.根据权利要求6所述的互联网业务运行监测系统,其特征在于,所述检测模块包括:
初始检测单元,用于检测所述异常服务所在的架构层是否异常,若是,则记录所述异常服务所在的架构层对应的异常点;
逐层检测单元,用于以所述异常服务相关的下一架构层为起始层按照从前端到后端的顺序逐层检测,判断检测的架构层是否存在异常,若是,则记录所述检测的架构层对应的异常点;
处理单元,用于根据所述架构层在架构层级中的顺序处理记录的异常点得到运行故障源。
8.根据权利要求7所述的互联网业务运行监测系统,其特征在于,检测模块还包括:
层级判断单元,用于判断所述异常服务所在的架构层是否存在与所述异常服务相关的下一架构层,若是,则通知所述逐层检测单元,若否,则通知所述处理单元;
所述处理单元还用于定位所述记录的异常点为运行故障源。
9.根据权利要求7所述的互联网业务运行监测系统,其特征在于,所述处理单元还用于根据所述架构层对应的优先级从所述记录的异常点中提取最大优先级对应的异常点作为运行故障源。
10.根据权利要求7所述的互联网业务运行监测系统,其特征在于,所述处理单元还用于从所述记录的异常点中提取与最后端的架构层对应的异常点,将所述提取的异常点定位为运行故障源。
CN201210112854XA 2012-04-17 2012-04-17 互联网业务运行监测方法和系统 Pending CN103378982A (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201210112854XA CN103378982A (zh) 2012-04-17 2012-04-17 互联网业务运行监测方法和系统
JP2014556914A JP5982015B2 (ja) 2012-04-17 2013-03-19 コンピュータ・ネットワーク用のトランザクション実行監視方法及びシステム並びにコンピュータ記憶媒体
KR1020147022788A KR20140145115A (ko) 2012-04-17 2013-03-19 컴퓨터 네트워크에 사용되는 업무 실행 모니터링 방법 및 시스템, 및 컴퓨터 기억 매체
PCT/CN2013/072852 WO2013155912A1 (zh) 2012-04-17 2013-03-19 互联网业务运行监测方法和系统、计算机存储介质
US14/238,650 US20140164840A1 (en) 2012-04-17 2013-03-19 Method and system for monitoring transaction execution on a computer network and computer storage medium
US14/197,667 US20140189431A1 (en) 2012-04-17 2014-03-05 Method and system for monitoring transaction execution on a computer network and computer storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210112854XA CN103378982A (zh) 2012-04-17 2012-04-17 互联网业务运行监测方法和系统

Publications (1)

Publication Number Publication Date
CN103378982A true CN103378982A (zh) 2013-10-30

Family

ID=49382893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210112854XA Pending CN103378982A (zh) 2012-04-17 2012-04-17 互联网业务运行监测方法和系统

Country Status (5)

Country Link
US (2) US20140164840A1 (zh)
JP (1) JP5982015B2 (zh)
KR (1) KR20140145115A (zh)
CN (1) CN103378982A (zh)
WO (1) WO2013155912A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103580933A (zh) * 2013-11-26 2014-02-12 力合科技(湖南)股份有限公司 环境在线分析仪的故障点识别方法及系统
CN104486406A (zh) * 2014-12-15 2015-04-01 浪潮电子信息产业股份有限公司 一种基于云数据中心的分层式资源监控方法
WO2015109443A1 (zh) * 2014-01-21 2015-07-30 华为技术有限公司 网络服务故障处理方法,服务管理系统和系统管理模块
CN107562601A (zh) * 2017-09-12 2018-01-09 郑州云海信息技术有限公司 一种告警方法及装置
CN108183821A (zh) * 2017-12-26 2018-06-19 国网山东省电力公司信息通信公司 一种面向电网业务的应用性能获取方法及装置
CN108933708A (zh) * 2017-05-27 2018-12-04 中国互联网络信息中心 一种分布式dns服务的多维度校验方法和系统
CN110875832A (zh) * 2018-08-31 2020-03-10 北京京东尚科信息技术有限公司 异常业务监控方法、装置、系统及计算机可读存储介质
CN115150253A (zh) * 2022-06-27 2022-10-04 杭州萤石软件有限公司 一种故障根因确定方法、装置及电子设备
CN115499288A (zh) * 2022-07-12 2022-12-20 平安国际融资租赁有限公司 业务监控方法、装置、设备及介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103378982A (zh) * 2012-04-17 2013-10-30 深圳市腾讯计算机系统有限公司 互联网业务运行监测方法和系统
JP6295801B2 (ja) * 2014-04-18 2018-03-20 富士通株式会社 分析方法、分析装置、及び分析プログラム
CN105608517B (zh) * 2015-09-24 2020-05-29 华青融天(北京)软件股份有限公司 基于流的业务交易性能管理及可视化方法和装置
US20170317960A1 (en) * 2016-04-28 2017-11-02 Jamdeo Canada Ltd. Device and methods for messaging application control and presentation
CN106789335B (zh) * 2017-01-13 2019-12-17 泰康保险集团股份有限公司 一种用于处理信息的方法和系统
US20220321326A1 (en) 2019-06-05 2022-10-06 Mastercard International Incorporated Security model for distributed computing system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020083371A1 (en) * 2000-12-27 2002-06-27 Srinivas Ramanathan Root-cause approach to problem diagnosis in data networks
US20050144505A1 (en) * 2003-11-28 2005-06-30 Fujitsu Limited Network monitoring program, network monitoring method, and network monitoring apparatus
CN101159617A (zh) * 2007-11-22 2008-04-09 中国电信股份有限公司 一种融合全网全业务的二维故障管理方法和系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3099770B2 (ja) * 1997-04-30 2000-10-16 日本電気株式会社 ネットワーク監視システムにおける障害情報管理方式
JP4183602B2 (ja) * 2003-11-04 2008-11-19 富士通株式会社 障害監視方法及びプログラム
JP4610240B2 (ja) * 2004-06-24 2011-01-12 富士通株式会社 分析プログラム、分析方法及び分析装置
JP4523444B2 (ja) * 2005-02-10 2010-08-11 富士通株式会社 通信ネットワークにおける障害の原因を特定する障害管理装置および方法
JP4594258B2 (ja) * 2006-03-10 2010-12-08 富士通株式会社 システム分析装置およびシステム分析方法
CN101075919A (zh) * 2006-06-22 2007-11-21 腾讯科技(深圳)有限公司 一种互联网业务的监控系统和监控方法
JP5505930B2 (ja) * 2010-02-24 2014-05-28 株式会社Kddi研究所 監視装置、監視方法及びプログラム
CN102158360B (zh) * 2011-04-01 2013-10-30 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法
CN103378982A (zh) * 2012-04-17 2013-10-30 深圳市腾讯计算机系统有限公司 互联网业务运行监测方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020083371A1 (en) * 2000-12-27 2002-06-27 Srinivas Ramanathan Root-cause approach to problem diagnosis in data networks
US20050144505A1 (en) * 2003-11-28 2005-06-30 Fujitsu Limited Network monitoring program, network monitoring method, and network monitoring apparatus
CN101159617A (zh) * 2007-11-22 2008-04-09 中国电信股份有限公司 一种融合全网全业务的二维故障管理方法和系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103580933A (zh) * 2013-11-26 2014-02-12 力合科技(湖南)股份有限公司 环境在线分析仪的故障点识别方法及系统
CN103580933B (zh) * 2013-11-26 2017-01-04 力合科技(湖南)股份有限公司 环境在线分析仪的故障点识别方法及系统
WO2015109443A1 (zh) * 2014-01-21 2015-07-30 华为技术有限公司 网络服务故障处理方法,服务管理系统和系统管理模块
US10680874B2 (en) 2014-01-21 2020-06-09 Huawei Technologies Co., Ltd. Network service fault handling method, service management system, and system management module
CN104486406A (zh) * 2014-12-15 2015-04-01 浪潮电子信息产业股份有限公司 一种基于云数据中心的分层式资源监控方法
CN108933708A (zh) * 2017-05-27 2018-12-04 中国互联网络信息中心 一种分布式dns服务的多维度校验方法和系统
CN108933708B (zh) * 2017-05-27 2021-03-09 中国互联网络信息中心 一种分布式dns服务的多维度校验方法和系统
CN107562601A (zh) * 2017-09-12 2018-01-09 郑州云海信息技术有限公司 一种告警方法及装置
CN108183821A (zh) * 2017-12-26 2018-06-19 国网山东省电力公司信息通信公司 一种面向电网业务的应用性能获取方法及装置
CN108183821B (zh) * 2017-12-26 2021-03-30 国网山东省电力公司信息通信公司 一种面向电网业务的应用性能获取方法及装置
CN110875832A (zh) * 2018-08-31 2020-03-10 北京京东尚科信息技术有限公司 异常业务监控方法、装置、系统及计算机可读存储介质
CN115150253A (zh) * 2022-06-27 2022-10-04 杭州萤石软件有限公司 一种故障根因确定方法、装置及电子设备
CN115150253B (zh) * 2022-06-27 2024-03-08 杭州萤石软件有限公司 一种故障根因确定方法、装置及电子设备
CN115499288A (zh) * 2022-07-12 2022-12-20 平安国际融资租赁有限公司 业务监控方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2013155912A1 (zh) 2013-10-24
US20140189431A1 (en) 2014-07-03
JP2015513722A (ja) 2015-05-14
KR20140145115A (ko) 2014-12-22
US20140164840A1 (en) 2014-06-12
JP5982015B2 (ja) 2016-08-31

Similar Documents

Publication Publication Date Title
CN103378982A (zh) 互联网业务运行监测方法和系统
CN102937930B (zh) 应用程序监控系统及方法
CN104407964B (zh) 一种基于数据中心的集中监控系统及方法
CN106301971A (zh) 基于流量分析的电力应用性能监控系统
CN108667666A (zh) 一种基于可视化技术的智能运维方法及其系统
CN106371986A (zh) 一种日志处理运维监控系统
CN111209131A (zh) 一种基于机器学习确定异构系统的故障的方法和系统
CN107229556A (zh) 基于elastic组件的日志分析系统
CN102035855A (zh) 网络安全事件关联分析系统
CN105471620A (zh) 宽带智能终端嵌入式网络分析与诊断装置及其方法
CN106598020B (zh) 一种基于bit和案例融合的装备故障诊断方法及系统
CN109976959A (zh) 一种用于服务器故障检测的便携式设备及方法
CN102752142A (zh) 一种基于多维建模的信息系统的监控方法及监控系统
CN104133915B (zh) 一种数据库管理员运维行为的监控方法及系统
CN104639352A (zh) 监控装置以及监控方法
CN102055615A (zh) 服务器监控方法
CN107168844A (zh) 一种性能监控的方法及装置
CN107870850A (zh) 一种高效的互联网应用日志系统
CN110445694A (zh) 一种基于Zabbix监控触发通知的方法
CN107317708B (zh) 一种法院业务应用系统的监测方法及装置
CN114137923A (zh) 工业生产现场数据采集与控制装置
CN204856154U (zh) 机房的运维监控系统
CN112114993B (zh) 一种应用系统的配置信息处理方法及装置
CN112256548B (zh) 异常数据的监听方法、装置、服务器及存储介质
CN109918547A (zh) 一种数据库会话管理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20131030