CN112422889A - 一种监控系统及方法 - Google Patents

一种监控系统及方法 Download PDF

Info

Publication number
CN112422889A
CN112422889A CN202010636597.4A CN202010636597A CN112422889A CN 112422889 A CN112422889 A CN 112422889A CN 202010636597 A CN202010636597 A CN 202010636597A CN 112422889 A CN112422889 A CN 112422889A
Authority
CN
China
Prior art keywords
alarm
data
service
monitoring
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010636597.4A
Other languages
English (en)
Inventor
尤凌飞
张涛
王海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Quyun Network Technology Co ltd
Original Assignee
Shanghai Quyun Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Quyun Network Technology Co ltd filed Critical Shanghai Quyun Network Technology Co ltd
Priority to CN202010636597.4A priority Critical patent/CN112422889A/zh
Publication of CN112422889A publication Critical patent/CN112422889A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/18Status alarms
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/18Status alarms
    • G08B21/182Level alarms, e.g. alarms responsive to variables exceeding a threshold

Abstract

本发明涉及一种监控系统及方法,所述监控方法包括:通过监控接口获取来自于多个层级服务的基于服务的监控指标数据,其中各个层级服务的监控指标数据至少包括层级服务标识和监控内容;响应于一个层级服务的所述监控指标数据满足报警规则,生成报警数据;所述报警数据至少包括故障级别、层级服务标识和监控指标数据;以及根据报警数据对应的层级服务,按照服务调用关系建立报警链路。本发明在报警时即自动确定了故障服务,且故障点的定位准确、快速,减少了对处理人员的依赖,并且能够快速量化监控服务。

Description

一种监控系统及方法
技术领域
本发明涉及计算机技术领域,特别地涉及一种监控系统及方法。
背景技术
目前大部分公司或企业存在不同层级服务的监控系统,例如运维监控系 统,服务监控系统,H5监控系统等。然而,现有的不同层级服务的监控系统 存在诸多问题。一方面,发生事故时,不同层级的监控系统都会报警,工作人 员很难从众多的监控报警信息中及时、快速地定位故障;并且,由于监控的指 标项非常多,收集的日志包括过多的冗余信息,需要工作人员有非常高的业务 水准才能从众多的数据中发现影响业务的关键问题。如果工作人员的业务水准 不高,很难快速、及时地发现关键问题。在另一方面,目前不同层级的监控系 统处于割裂工作状态,而没有针对于多维度的业务服务的整体监控系统。
发明内容
针对现有技术中存在的技术问题,本发明提出了一种监控系统及方法,能 够快速定位故障。
基于上述技术问题,根据本发明的一个方面,本发明提供了一种监控方法, 其中包括以下步骤:通接监控接口获取来自于层级服务的基于服务的监控指标 数据,各个层级服务的所述监控指标数据至少包括层级服务标识和监控内容; 响应于一个层级服务的所述监控指标数据满足报警规则,生成报警数据,所述 报警数据至少包括故障级别、层级服务标识和监控指标数据;以及根据报警数 据对应的层级服务,按照服务调用关系建立报警链路。
基于上述技术问题,根据本发明的另一个方面,本发明还提供了一种监控 系统,所述系统包括监控接口、数据处理模块和报警链路模块,其中,所述监 控接口经配置以连接层级监控模块,所述层级监控模块获取对应层级服务的监 控数据,并按照监控指标分析所述监控数据以得到对应监控指标数据,所述监 控指标数据至少包括层级服务标识和监控内容;所述数据处理模块经配置以通 过所述监控接口从多个层级监控模块获取指定监控指标数据,按照报警规则分 析所述监控指标数据,在满足报警规则时生成报警数据,其中所述报警数据至 少包括故障级别、层级服务标识和监控指标数据;所述报警链路模块经配置以 根据报警数据对应层级服务,按照服务调用关系建立报警链路。
本发明基于服务得到监控指标数据,将现有的单点报警模式变成面向服务 /业务的流报警模式,在报警时即自动确定了故障服务,且故障点的定位准确、 快速,减少了对处理人员的依赖,并且能够根据报警数据、报警链路或事件链 路等可以快速量化监控服务。
附图说明
下面,将结合附图对本发明的优选实施方式进行进一步详细的说明,其中:
图1是根据本发明的一个实施例的监控方法流程图;
图2是根据本发明的一个实施例的企业服务层级监控模块分布示意图;
图3是根据本发明的一个实施例的报警数据内容示意图;
图4是根据本发明的一个实施例的报警链路示意图;
图5是根据本发明的一个实施例的对服务进行标记的流程图;
图6是根据本发明的一个实施例的标记示意图;
图7A-7C是根据本发明的一个实施例的报警流程示意图;
图8是根据本发明的一个实施例中在工作群中贴出的报警信息示意图;
图9是根据本发明一个实施例的监控系统原理框图;
图10是根据本发明一个实施例的报警标记模块原理框图;
图11是根据本发明一个实施例的报警模块原理框图;以及
图12是根据本发明一个实施例的监控系统原理框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中 的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其 他实施例,都属于本发明保护的范围。
在以下的详细描述中,可以参看作为本申请一部分用来说明本申请的特定 实施例的各个说明书附图。在附图中,相似的附图标记在不同图式中描述大体 上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述,使得 具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当 理解,还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性 的改变。
图1为根据本发明一个实施例的监控方法流程图,其中所述方法包括:
步骤S11,通过监控接口从层级监控模块分别获取基于服务的监控数据, 所述监控数据至少包括层级服务标识和监控内容。在一个企业中,其提供的服 务,也可以称为业务,按照服务/业务流向,可分为客户端、接入层、服务层。 其中,服务层又包括服务入口和内部服务,根据这些层次,分别设置监控模块, 在本发明中称为层级监控模块。如图2所示,为一个实施例的企业服务层级监 控模块分布示意图。在一个实施例中,客户端监控模块M1设置在该服务的客 户端中,其中,安装有客户端的终端可以是iOS终端,也可以是Android终端, 另外,客户端也可以是H5页面。接入层监控模块M2可设置在接入层设备中, 例如SLB(负载均衡器,Server Load Balancer)、VTM(Virtual Traffic Manager, 虚拟流量管理器)、KONG(基于Nginx的API Gateway)等等。服务层监控模 块包括入口监控模块M3和内部服务监控模块M4。其基于Nginx(Web服务 器/反向代理服务器、电子邮件代理服务器等服务器)和PHP及GO语言的服 务模块进行监控。这些层级监控模块基于服务采集各级模块相应的数据。例如, 针对于某个企业的阅读服务,在应用客户端可采集到客户端监控数据,在服务 端通过编写代码的框架,定义好上报的格式,在需要上报的地方打点则可以完 成自动上报。采集完数据后,按照监控指标分析所述监控数据以得到对应监控 指标数据。根据不同的服务、监控目的可以灵活设置多种监控指标,例如:入 口流量、网关(例如KONG、VTM)非200比例、业务层(nginx、go、sidecar) 非200、域名不可访问和sidecar限流熔断、平均延迟时间等等。根据设置的指 标对监控数据进行统计、合并或计算操作等从而得到对应的监控指标数据。例 如:监控指标为“非200比例”,对网关KONG的监控数据统计、计算,得到 该比例为8%,则“非200比例”这一监控指标数据包括层级服务标识:KONG, 内容(或值)为8%,另外还可以包括计算使用的监控指标数据的存储链接。 在一个实施例中,所述监控指标可分为服务通用指标和层级服务特定指标。例 如,将非200错误比例和平均延迟时间设置为通用指标,各个层级服务包括符 合各自特点的监控指标。层级监控模块将监控数据、监控指标数据以指标样本 的形式存储到时间序列库中。指标样本包括样本名称及一个或多个用于描述样 本特征的标签,在本发明中,在所述标签中记载不同类别的数据,如服务名称、所在层级、监测内容等等。本发明通过监控接口采用Pull模式从时间序列库拉 取各个层级监控模块的监控指标数据。
步骤S12,响应于所述监控指标数据满足报警规则生成报警数据,所述报 警数据至少包括故障级别、层级服务标识和监控指标数据。其中,所述报警规 则从服务特点、预期效果等出发,包括了各种需要报警的条件,当所述监控指 标数据满足报警规则时则生成报警数据,并在报警数据中注明服务标识、主题 (如报警规则名称或内容)以及更为详细内容,如涉及到的监控指标数据、监 控数据链接等。如图3所示,为两条报警数据,在该标题中包括了服务标识: midu,报警规则名称:请求非200比例5%,在详细信息中,记载了该报警数 据所在的当前服务:其中的一个当前服务是midu-backend-midu-admin-gateway, 具体报警内容是intruvert qps请求非200比例超过5%,并给出了具体值为 100%。在本实施例中,根据报警数据中的服务层级明确确定了受影响的业务 一个是网关,一个是对外服务api。
步骤S13,根据报警数据对应服务层级,按照层级递进顺序建立报警链路。 从报警数据中的信息可见,其包括了发生报警的服务层级。当得到一个新增报 警据后,根据其服务标识确定与其同属于一个服务的其他报警数据,然后根据 服务之间调用关系,可以确定层级服务的递进顺序,从而将这些报警数据关联 在一起,从而形成一条报警链路。如图4所示。图中上部为以时间为轴的一个 服务的报警链路,在这个时间段内共有5个报警。图下部为这5个报警的服务 调用关系。其中,为了能在每一个报警数据中得到报警链路情况,在得到报警 链路时在报警数据中记录所述报警数据服务层级之前的报警链路信息,即记录 其调用的服务标识。用户可点击链路上的任何一个来查询具体的报警信息。当 用户点击报警数据来查询时,响应于查询指令,从时间序列数据库中获取所述 报警数据的特征标签内容,其中记载了详细的数据,如监控指标名称、故障级 别、当前指标值、监控数据的链接等等。
本发明基于服务采集数据,并建立了基于服务调用关系的报警链路,将现 有的单点报警模式变成面向服务/业务的流式报警模式,能够快速定位故障点, 并且可以快速量化对当前故障对服务/业务的影响。
本发明中设置的监控指标侧重于评估服务的可用性,如不可用、少量问题、 大量问题和正常状态,设置通用服务指标和层级服务指标,因而设置的监控指 标及报警规则不再是纷繁复杂。并且本发明中的监控数据、监控指标数据、报 警数据均以指标(metric)的形式保存在内置的时间序列数据库当中,通过强大的 数据模型,方便了监控过程中数据的统计、调用、查看等。
在另一个实施例中,在得到报警数据时,在系统中记录一次报警事件,所 述报警事件信息与对应的报警数据相关联。随着时间的流逝,系统中会有多个 报警事件,通过报警事件的多少及对应于报警的故障级别可知该服务当前的可 用性。因而,在本实施例中包括对监控服务进行标记的步骤。如图5所示:
步骤S51,统计一个服务的当前报警事件数量及每个报警事件故障级别。
步骤S52,根据报警数量、故障级别确定服务报警级别。所述的服务报警 级别例如服务不可用、服务大量问题、服务少量问题、和服务正常状态。所述 服务报警级别与报警数量和报警故障级别相关,例如,当该服务中出现设置数 量的灾难级别的报警事件时,这些报警事件中反映的事故将导致服务无法提 供。将其设置为最高级别,即服务不可用。
步骤S53,根据服务报警级别确定所述服务的报警标记。在一个实施例中, 为了能够在监控界面中清晰、直观地反映出服务报警级别,在本实施例中采用 不同的色彩作为报警标记。例如,红色表示不可用,绿色表示正常。在另一种 标记方式中,采用圆点表示报警事件的数量,数量越多,圆点直径越大。然而, 本领域的普通技术人员应该知道,标记方法并不局限于本实施例提供的标记方 法,根据监控界面的表现方法、布局等,可以设置其他多种标记方法。
步骤S54,识别与当前服务相关联的其他服务。在一个企业提供多种服务 时,服务之间可能会存在关联,例如,阅读服务与评论服务。为了区分当前服 务,将与其关联的其他服务称为第二服务。
步骤S55,为第二服务标记相同的报警标记。例如,当阅读服务不可用, 标为红色时,将与其关联的评论服务也标为红色。
本发明还可以根据指定的时间长度范围,提供该时间段内的事件链路。具 体地,由于本发明中的报警数据及对应的事件数据等存储在时间序列库中,当 指定了时间段后,从时间序列库中读取该时间段内的事件数据,根据事件发生 的时间生成事件链路。在一个实施例中,事件链路按照周视图展示,单个小时 内故障问题超过100个展示红色,报警数量越多展示圆形越大,如图6所示。
本发明还可以包括告警的步骤,即在得到报警数据时,分析所述报警数据, 响应于报警数据满足报警条件,根据报警策略报警,用以通知相关人员处理报 警中的故障。在一个实施例中,报警条件包括满足故障级别及报警链路长度。 例如,当报警数据的故障级别为灾难级别即可满足报警条件。如果报警数据的 故障级别低于灾难级别,则在报警链路的级数达到预定数量时即可满足报警条 件。在满足报警条件时,根据故障级别及其影响的服务,选择所述服务的相关 人员作为报警对象进行报警。其中一个实施例如图7A-7C所示。
步骤S71,获取报警数据。在一个实施例中,每当产生一个报警数据时, 均需要按照图7的流程判断是否需要报警。
步骤S72,判断当前生成的报警数据的故障级别是否为最高的灾难级别, 如果为灾难级别,需要立即处理。则执行步骤S73。如果不是破灾难级别,如 不同级别的风险级别,则执行步骤S721,详见图7B。
步骤S73,获取该层级服务的特定指定人员,通过通讯终端向所述特定工 作人员发送紧急通知。通常在企业内部会有资产管理数据库,其中配置有对相 应资产、业务、服务、应用的多级负责工作人员,通常查询资产管理数据库的 工作人员配置表,可以得到某个服务的灾难级故障的处理人员及其通知方式, 如电话号码。通过通讯终端向所述特定工作人员发送紧急通知,例如通过语音 告知该特定人员报警的主题、详细内容及处理时限。而后计时根据所述处理时 限计时。
步骤S74,在计时时间到判断该次报警是否已处理。如果没有,则执行步 骤S741,详见图7C。如果已经处理执行步骤S75。
步骤S75,计时并监测新增报警数据。
步骤S76,判断在5分钟内是否有相同的新增报警数据,如果有,说明该 问题的处理没有成功,此时需要升级处理人员,则执行步骤S77。如果在在5 分钟内没有相同的新增报警数据,说明该报警中的故障已经消除,则结束此报 警处理流程。
步骤S77,获取该层级服务的多名指定人员,通过即时通讯应用建立工作 群组并计时。在即时通讯应用的工作群中贴出报警信息,包括故障主题、影响 的服务名称、发生时间、报警数据详细信息的链接、处理负责人及处理时限等。 其中一个实施例如图8所示。
步骤S78,在计时时间到判断是否已处理,如果已处理,则转到步骤S75。 如果没有处理,则在步骤S79,向该群中拉中高级处理人员已升级所述工作群 组,再返回步骤S78。
参见图7B。此流程承接步骤S72中,当报警数据的故障级别不是最高的 灾难级别时的处理流程,简要描述如下:
步骤S721,判断是否达到预置的报警链路级数。如2、4、5级等,可根 据故障级别及具体服务类别设置不同的级数。如果达到了,则执行步骤S722, 否则重复步骤S721。
步骤S722,从资产管理数据库获取该服务指定的处理人员。
步骤S723,利用即时通讯应用建立一级工作群组,并计时,如3分钟。
步骤S724,在计时时间到时判断该报警故障是否已处理,如果已处理, 则转到步骤S726,否则在步骤S725,向该群中拉中高级处理人员已升级所述 工作群组,再返回步骤S724。
步骤S726,计时并监测新增报警数据。
步骤S727判断在5分钟内是否有相同的新增报警数据,如果有,说明该 问题的处理没有成功,此时需要升级处理人员,则执行步骤S725。如果在在5 分钟内没有相同的新增报警数据,说明该报警中的故障已经消除,则结束此报 警处理流程。
参见图7C,此流程承接步骤S74中判断通讯终端报警没有处理的流程。
简要描述如下:
步骤S741,获取该层级服务的多名指定人员。
步骤S742,通过即时通讯应用建立一级工作群组并计时。
步骤S743,在计时时间到判断是否已处理,如果已处理,则转到步骤S745。 如果没有处理,则在步骤S744,向该群中拉中高级处理人员已升级所述工作 群组,再返回步骤S743。
步骤S745,计时并监测新增报警数据。
步骤S746,判断在5分钟内是否有相同的新增报警数据,如果有,说明 该问题的处理没有成功,此时需要升级处理人员,则执行步骤S744。如果在 在5分钟内没有相同的新增报警数据,说明该报警中的故障已经消除,则结束 此报警处理流程。
本发明在报警的方式处理上,由现有的研发自主处理模式变成自动确定处 理策略模式,通过结合现有通讯工具,设置不同的报警策略,例如,严重问题 3分钟在即时通讯中拉群通告、5分钟升级、10分钟到技术中心负责人。因而 对报警的处理更快。
图9为根据本发明一个实施例的监控系统原理框图。所述监控系统包括监 控接口1、数据处理模块2和报警链路模块3。其中,所述监控接口1经配置 用以连接层级监控模块,如图5中的各个层级监控模块,所述层级监控模块基 于服务采集对应层级服务的监控数据,并按照监控指标分析所述监控数据以得 到对应监控指标数据,所述监控指标数据至少包括层级服务标识和监控内容。 在一个实施例中,层级监控模块将采集到的监控数据及处理后得到的监控指标 数据存储在时间序列数据库4中。时间序列数据库4按照指标样本的形式存储 数据,所述的样本至少包括样本名称,在本实施例中为监控指标名称,如“非 200错误比例”、“延迟时间”等。样本还包括一个或多个特征标签,其用于记 录监控指标的相应内容,如层级服务标识、指标数据等。
数据处理模块2经配置以通过所述监控接口1以Pull方式获取来自层级监 控模块的指定监控指标数据,例如,从时间序列数据库4中拉取数据。然后按 照报警规则分析所述监控指标数据,在满足报警规则时生成报警数据,其中所 述报警数据至少包括故障级别、层级服务标识和监控指标数据。在一个实施例 中,数据处理模块2将得到的报警数据也存储到时间序列数据库4中。数据处 理模块2在生成报警数据的同时记录相应的报警事件,在预定时间内没有得到 相同的新增报警数据时记录报警消除事件。所述报警链路模块3经配置以根据 报警数据对应层级服务,按照服务调用关系建立报警链路。
在另一个实施例中,所述系统还进一步包括报警标记模块5,如图10所 示,其具体包括统计单元51、级别确定单元52和标记单元53。其中,所述统 计单元51用以统计一个服务的报警事件数量及每个报警事件故障级别。例如 从数据处理模块2的记载中可以获知报警事件数量,或者从时间序列数据库中 获取与一个服务的报警数据的数量也可以获知报警事件数量,通过报警数据或 报警事件对应的报警数据的具体数据可以得到每个报警事件故障级别。所述级 别确定单元52用以根据报警数量、故障级别确定服务报警级别。所述标记单 元53根据服务报警级别确定所述服务的报警标记。例如采用不同的色彩作为 报警标记,或者采用圆点表示报警事件的数量,数量越多,圆点直径越大。并 且所述标记单元53根据服务之间的关联关系,为与所述服务相关联的第二服 务确定相同的报警标记。例如,当确定当前服务不可用,标记为红色,将与其 关联的其他服务也标记为不可用的红色。
在另一个实施例中,所述的系统还进一步包括报警模块6,用以响应于报 警数据满足报警条件,根据报警策略报警。其中,如图11所示,所述报警模 块6包括报警单元61和报警通知单元62。其中,所述报警单元61在报警数据 满足报警条件时生成报警通知。所述的报警条件例如为如故障级别、报警链路 长度。在报警数据的故障级别为灾难级别即可满足报警条件;或者报警数据的 故障级别低于灾难级别,则在报警链路的级数达到预定数量时即可满足报警条 件。所述报警通知单元62在收到报警通知时,根据报警策略报警。其中,所 述的报警策略包括与故障级别对应的报警发出时限、通知工具和工作人员配置 中的一者或多者。所述通知工具包括通讯终端和即时通讯应用。如图7A-图7C 所示。在报警的故障在规定的时限内没有被处理或处理成功时,逐级升级工作 群组,因而,报警模块6还包括计时单元63,用于在所述报警通知单元62向 工作人员发出报警后计时;以及所述报警通知单元响应发出通知的预置时间内 仍有相同的新增报警数据,升级报警策略。
如图12为根据本发明的另一个实施例,在本实施例中,除了前述的各个 模块外,当层级监控模块M1-M4具有报警功能时,所述监控接口1接收层级 监控模块M1-M4的层级报警数据。本实施例还接收其他报警源A1-A2的报警 数据。接收到这些报警数据后,与本发明数据处理模块2得到的报警数据作同 样的处理。本发明通过预留监控接口,基于Pull模型的架构方式,可以在任何 地方(本地电脑,开发环境,测试环境)搭建本发明的监控系统,并且可以聚 合各种报警平台,准入接入多套的报警源(如运维告警中心、QAlarm等),因 而,本发明监控范围相对现有系统更广。
为了更加清楚地阐述本发明的相关内容,本发明还包括申请日为2020年7 月3日,申请号为202010635157.7、发明名称为“一种监控系统及方法”的专 利申请的所有内容,以及申请日为2020年7月3日,申请号为202010637270.9、 发明名称为“一种监控系统的告警方法及系统”的专利申请的所有内容。
上述实施例仅供说明本发明之用,而并非是对本发明的限制,有关技术领 域的普通技术人员,在不脱离本发明范围的情况下,还可以做出各种变化和变 型,因此,所有等同的技术方案也应属于本发明公开的范畴。

Claims (30)

1.一种监控方法,包括:
通过监控接口获取来自于多个层级服务的基于服务的监控指标数据,其中各个层级服务的监控指标数据至少包括层级服务标识和监控内容;
响应于一个层级服务的所述监控指标数据满足报警规则,生成报警数据;所述报警数据至少包括故障级别、层级服务标识和监控指标数据;以及
根据报警数据对应的层级服务,按照服务调用关系建立报警链路。
2.根据权利要求1所述的方法,其中进一步包括:在报警数据中记录所述报警数据的层级服务的调用服务链路。
3.根据权利要求1所述的方法,其中进一步包括:在生成报警数据的同时记录相应的报警事件。
4.根据权利要求3所述的方法,其中进一步包括:
统计一个服务的报警事件数量及各个报警事件故障级别;
根据报警数量、故障级别确定服务报警级别;以及
根据服务报警级别确定所述服务的报警标记。
5.根据权利要求4所述的方法,其中进一步包括:
根据服务之间的关联关系,为与所述服务相关联的第二服务确定相同的报警标记。
6.根据权利要求3所述的方法,其中进一步包括:在预定时间内没有收到相同的新增报警数据时,记录相应的报警消除事件。
7.根据权利要求3所述的方法,其中进一步包括:将监控指标数据、报警数据和报警消除数据以指标样本的形式存储在时间序列数据库中。
8.根据权利要求7所述的方法,其中,所述指标样本包括样本名称及一个或多个用于描述样本特征的标签。
9.根据权利要求7或8所述的方法,其中进一步包括:响应于时间设置,从时间序列数据库中获取相应服务指定时间段的事件数据,根据事件发生的时间生成事件链路。
10.根据权利要求9所述的方法,其中进一步包括:响应于事件/报警查询指令,从时间序列数据库中获取事件/报警数据的特征标签内容。
11.根据权利要求1所述的方法,其中进一步包括:分析报警数据,响应于报警数据满足报警条件,根据报警策略报警。
12.根据权利要求11所述的方法,其中,满足以下条件时满足报警条件:所述报警数据的故障级别为灾难级别;或者,所述报警数据的级别低于灾难级别,且得到预定级数的报警链路。
13.根据权利要求11所述的方法,根据报警策略报警的步骤进一步包括:
根据故障级别及其影响的服务,选择所述服务的相关人员作为报警对象进行报警;以及
在报警后的预置时间内仍有新增报警数据生成时,升级报警对象。
14.根据权利要求13所述的方法,其中进一步包括:通过通讯终端向相关工作人员发出紧急通知;或者通过即时通讯应用建立工作组。
15.根据权利要求1所述的方法,其中,所述监控指标包括服务通用指标和层级服务特定指标。
16.根据权利要求1所述的方法,其中,在层级服务的层级监控模块具有报警功能时,还包括接收层级监控模块的层级报警数据;和/或接收其他报警源的报警数据。
17.一种监控系统,包括:
监控接口,经配置以连接层级监控模块,所述层级监控模块基于服务采集对应层级服务的监控数据,并按照监控指标分析所述监控数据以得到对应监控指标数据,所述监控指标数据至少包括层级服务标识和监控内容;
数据处理模块,经配置以通过所述监控接口从多个层级监控模块获取指定监控指标数据,按照报警规则分析所述监控指标数据,在满足报警规则时生成报警数据,其中所述报警数据至少包括故障级别、层级服务标识和监控指标数据;以及
报警链路模块,经配置以根据报警数据对应的层级服务,按照服务调用关系建立报警链路。
18.根据权利要求17所述的系统,其中所述监控接口以拉取模式获取来自于层级监控模块的监控指标数据。
19.根据权利要求17所述的系统,其中所述数据处理模块经进一步配置,在生成报警数据的同时记录相应的报警事件,在预定时间内没有得到相同的新增报警数据时记录报警消除事件。
20.根据权利要求19所述的系统,其中进一步包括报警标记模块:
统计单元,经配置以统计一个服务的报警事件数量及每个报警事件故障级别;
级别确定单元,经配置以根据报警数量、故障级别确定服务报警级别;以及
标记单元,经配置以根据服务报警级别确定所述服务的报警标记。
21.根据权利要求20所述的系统,其中所述标记单元经配置以根据服务之间的关联关系,为与所述服务相关联的第二服务确定相同的报警标记。
22.根据权利要求19所述的系统,其中所述数据处理模块经进一步配置为指定时间段内的事件生成按时间排序的事件链路,其包括报警事件和报警消除事件。
23.根据权利要求17所述的系统,其中还包括时间序列数据库,用以按照指标样本的形式存储数据。
24.根据权利要求17所述的系统,其中还进一步包括报警模块,经配置以响应于报警数据满足报警条件,根据报警策略报警。
25.根据权利要求24所述的系统,其中所述报警模块包括:
报警单元,经配置以响应报警数据满足报警条件,生成报警通知;以及
报警通知单元,经配置以在收到报警通知时,根据报警策略报警。
26.根据权利要求25所述的系统,其中所述报警策略包括与故障级别对应的报警发出时限、通知工具和工作人员配置中的一者或多者。
27.根据权利要求26所述的系统,其中所述通知工具包括通讯终端和即时通讯应用。
28.根据权利要求27所述的系统,其中所述报警模块进一步包括:
计时单元,经配置以在向工作人员发出报警后按照预置时间段计时;以及所述报警通知单元响应发出报警的预置时间段内仍有相同的新增报警数据,升级报警策略。
29.根据权利要求18所述的系统,其中所述层级监控模块按照数据流向依次为应用客户端监控模块、接入层监控模块、服务层监控模块。
30.根据权利要求18所述的系统,在层级监控模块具有报警功能时,所述数据处理模块通过所述监控接口接收层级监控模块的层级报警数据;和/或所述数据处理模块通过所述监控接口接收一个或多个报警源的报警数据。
CN202010636597.4A 2020-07-03 2020-07-03 一种监控系统及方法 Pending CN112422889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010636597.4A CN112422889A (zh) 2020-07-03 2020-07-03 一种监控系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010636597.4A CN112422889A (zh) 2020-07-03 2020-07-03 一种监控系统及方法

Publications (1)

Publication Number Publication Date
CN112422889A true CN112422889A (zh) 2021-02-26

Family

ID=74844167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010636597.4A Pending CN112422889A (zh) 2020-07-03 2020-07-03 一种监控系统及方法

Country Status (1)

Country Link
CN (1) CN112422889A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102497284A (zh) * 2011-12-06 2012-06-13 摩卡软件(天津)有限公司 一种整合监控软件告警的方法和系统
US20130013371A1 (en) * 2011-07-04 2013-01-10 Norik Katsakhyan System and method for tracking retail sales performance
CN105654253A (zh) * 2016-03-14 2016-06-08 福州丹诺西诚电子科技有限公司 一种生产管理方法及系统
CN106603299A (zh) * 2016-12-28 2017-04-26 北京奇艺世纪科技有限公司 一种服务健康指数的生成方法及装置
CN108964995A (zh) * 2018-07-03 2018-12-07 上海新炬网络信息技术股份有限公司 基于时间轴事件的日志关联分析方法
CN110955581A (zh) * 2019-11-15 2020-04-03 北京金山云网络技术有限公司 线上软件异常告警方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130013371A1 (en) * 2011-07-04 2013-01-10 Norik Katsakhyan System and method for tracking retail sales performance
CN102497284A (zh) * 2011-12-06 2012-06-13 摩卡软件(天津)有限公司 一种整合监控软件告警的方法和系统
CN105654253A (zh) * 2016-03-14 2016-06-08 福州丹诺西诚电子科技有限公司 一种生产管理方法及系统
CN106603299A (zh) * 2016-12-28 2017-04-26 北京奇艺世纪科技有限公司 一种服务健康指数的生成方法及装置
CN108964995A (zh) * 2018-07-03 2018-12-07 上海新炬网络信息技术股份有限公司 基于时间轴事件的日志关联分析方法
CN110955581A (zh) * 2019-11-15 2020-04-03 北京金山云网络技术有限公司 线上软件异常告警方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11657309B2 (en) Behavior analysis and visualization for a computer infrastructure
CN108964995B (zh) 基于时间轴事件的日志关联分析方法
US6697809B2 (en) Data retrieval and transmission system
US8504679B2 (en) Methods, systems and computer program products for managing execution of information technology (IT) processes
CN108572907B (zh) 一种告警方法、装置、电子设备及计算机可读存储介质
CN111339175B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN110535713B (zh) 监控管理系统以及监控管理方法
CN112152823B (zh) 网站运行错误监控方法、装置及计算机存储介质
CN112699007A (zh) 监控机器性能的方法、系统、网络设备及存储介质
CN111245672A (zh) 一种通用可扩展的追踪业务全链路的监控方法及系统
CN113746703B (zh) 一种异常链路监控方法、系统和装置
CN107635003A (zh) 系统日志的管理方法、装置及系统
CN110677304A (zh) 一种分布式问题追踪系统及设备
CN113452607A (zh) 分布式链路采集的方法、装置、计算设备和存储介质
CN111752808A (zh) 一种用于数据共享交换业务运行监控系统的实现方法
CN113312200A (zh) 一种事件处理方法、装置、计算机设备及存储介质
CN109032904A (zh) 被监控、管理服务器及数据获取、分析方法和管理系统
CN108039971A (zh) 一种告警方法及装置
CN114328107A (zh) 光磁融合存储服务器集群的监控方法、系统及电子设备
US20020026433A1 (en) Knowledge system and methods of business alerting and business analysis
CN117422434A (zh) 一种智慧运维调度平台
CN112422889A (zh) 一种监控系统及方法
CN111983960A (zh) 一种监控系统及方法
KR101288535B1 (ko) 통신 시스템 모니터링 방법 및 이를 위한 장치
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210226

WD01 Invention patent application deemed withdrawn after publication