CN111983960A - 一种监控系统及方法 - Google Patents
一种监控系统及方法 Download PDFInfo
- Publication number
- CN111983960A CN111983960A CN202010635157.7A CN202010635157A CN111983960A CN 111983960 A CN111983960 A CN 111983960A CN 202010635157 A CN202010635157 A CN 202010635157A CN 111983960 A CN111983960 A CN 111983960A
- Authority
- CN
- China
- Prior art keywords
- alarm
- data
- monitoring
- service
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 201
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000004044 response Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 47
- 238000004891 communication Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 7
- 238000010276 construction Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000007726 management method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/04—Programme control other than numerical control, i.e. in sequence controllers or logic controllers
- G05B19/048—Monitoring; Safety
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/18—Status alarms
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/18—Status alarms
- G08B21/182—Level alarms, e.g. alarms responsive to variables exceeding a threshold
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Alarm Systems (AREA)
Abstract
本发明涉及一种监控方法及系统,其中所述方法包括:在服务的多个层级模块布置层级监控模块,基于服务采集该层级模块的监控数据,所述监控数据至少包括层级服务标识和监控内容;按照监控指标获取对应的监控数据并得到对应的监控指标数据;响应于所述监控指标数据满足报警规则生成报警数据,所述报警数据至少包括故障级别、层级服务标识和监控指标数据;以及分析报警数据,响应于报警数据满足报警条件,根据报警策略报警。本发明适用于多种监控场景,适用范围广、系统搭建方便,能够快速定位故障点,快速量化对当前故障对服务/业务的影响,能够快速处理报警事件。
Description
技术领域
本发明涉及计算机技术领域,特别地涉及一种监控系统及方法。
背景技术
目前大部分公司、企业存在不同层级服务的监控系统,例如运维监控系统, 服务监控系统,H5监控系统等。一方面,发生事故时,不同层级的监控系统 都会报警,工作人员很难从众多的监控报警信息中及时、快速地定位故障。并 且由于监控的指标项非常多,收集的日志冗余,需要工作人员有较高的业务水 准才能从众多的数据中发现影响业务的关键问题,即使工作人员的业务水准很 高,也很难快速、及时地发现关键问题。在另一方面,目前不同层级的监控系 统处于割裂工作状态,而对于多维度整体的业务服务,目前没有一种查看其长 期状态的方式,无法为评价所述服务提供简洁、清晰地依据。
发明内容
针对现有技术中存在的技术问题,本发明提出了一种监控系统及方法,能 够适合不同监控场景,快速定位故障,并提供对应的报警及处理方式。
为了解决上述技术问题,根据本发明的一个方面,本发明提供了一种监控 方法,其中包括:
在服务的多个层级模块布置层级监控模块,基于服务采集该层级模块的监 控数据,所述监控数据至少包括层级服务标识和监控内容;
按照监控指标获取对应的监控数据并得到对应的监控指标数据;
响应于所述监控指标数据满足报警规则生成报警数据,所述报警数据至少 包括故障级别、层级服务标识和监控指标数据;以及
分析报警数据,响应于报警数据满足报警条件,根据报警策略报警。
为了解决上述技术问题,根据本发明的一个方面,本发明提供了一种监控 系统,包括层级监控模块、数据处理模块、报警数据模块和报警模块,其中, 所述层级监控模块经配置以布置在服务的多个层级模块,基于服务采集该层级 模块的监控数据,所述监控数据至少包括层级服务标识和监控内容;所述数据 处理模块经配置以按照监控指标获取对应的监控数据并得到对应监控指标数 据;所述报警数据模块经配置以响应于所述监控指标数据满足报警规则生成报 警数据,所述报警数据至少包括故障级别、层级服务标识和监控指标数据;所 述报警模块经配置以分析报警数据,响应于报警数据满足报警条件,根据报警 策略报警。
本发明可适用于多种监控场景,在层级模块具有处理能力时,可以仅进行 报警处理,当层级模块不具有处理能力时可提供数据处理功能,并且可以外接 多种不同的报警源,适用范围广、系统搭建方便。本发明基于服务采集数据将 现有的单点报警模式变成面向服务/业务的流报警模式,能够快速定位故障点, 并且可以快速量化对当前故障对服务/业务的影响。本发明在报警的处理方式 上,由现有的研发自主处理模式变成自动确定处理策略模式,通过结合现有通 讯工具,设置不同的报警策略,可以快速处理报警事件。
附图说明
下面,将结合附图对本发明的优选实施方式进行进一步详细的说明,其中:
图1是根据本发明的一个实施例的监控方法流程图;
图2是根据本发明的一个实施例的企业服务层级监控模块分布示意图;
图3是根据本发明的一个实施例的报警数据示意图;
图4A-4C是根据本发明的一个实施例报警流程图;
图5是根据本发明的一个实施例的报警工作群的通知示意图;
图6是根据本发明的一个实施例的监控系统原理框图;
图7是根据本发明的一个实施例的层级监控模块原理框图;
图8是根据本发明的一个实施例的报警数据模块原理框图;
图9是根据本发明的一个实施例的报警模块原理框图;以及
图10是根据本发明的另一个实施例的监控系统原理框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中 的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其 他实施例,都属于本发明保护的范围。
在以下的详细描述中,可以参看作为本申请一部分用来说明本申请的特定 实施例的各个说明书附图。在附图中,相似的附图标记在不同图式中描述大体 上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述,使得 具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当 理解,还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性 的改变。
图1为根据本发明一个实施例的监控方法流程图,其中所述方法包括:
步骤S10,在服务的多个层级模块布置层级监控模块,基于服务采集该层 级模块的监控数据,所述监控数据至少包括层级服务标识和监控内容。其中, 在一个企业中,其提供的服务,也可以称为业务,按照服务/业务数据流向, 可分为客户端、接入层、服务层。其中,服务层又包括服务入口和内部服务, 在本实施例中,根据这些层次,分别设置监控模块,在本发明中称为层级监控 模块。如图2所示,为一个实施例的企业服务层级监控模块分布示意图。客户 端其中,在一个实施例中,客户端监控模块M1设置在该服务的客户端中,其中,安装有客户端的终端可以是iOS终端,也可以是Android终端,另外,客 户端也可以是H5页面。接入层监控模块M2可设置在接入层设备中,例如SLB (负载均衡器,Server LoadBalancer)、VTM(Virtual Traffic Manager,虚拟流 量管理器)、KONG(基于Nginx的APIGateway)等等。服务层监控模块包括 入口监控模块M3和内部服务监控模块M4。其基于Nginx(Web服务器/反向 代理服务器、电子邮件代理服务器等服务器)和PHP及GO语言的服务模块 进行监控。所述层级监控模块按照监控指标在对应层级模块的预置位置埋点, 并设置上报数据时的数据格式,其中,设置了在数据中填加该埋点数据的来源 服务标识,根据所述层级模块的不同,标识对应的层级服务标识。其中,根据 不同的服务、层级、监控目的灵活设置多种监控指标,例如:入口流量、网关 (例如KONG、VTM)非200比例、业务层(nginx、go、sidecar)非200、域 名不可访问和sidecar限流熔断、平均延迟时间等等。根据这些监控指标确定 所需要采集的数据,从而在相应的层级埋点以采集对应的数据。
步骤S11,获取层级监控模块采集的监控数据。在一个实施例中,层级监 控模块采集到监控数据后即上报给服务端,服务端将层级监控模块上报的监控 数据存储在时间序列数据库中,并在一个或多个样本特征标签中分别记录所述 监控数据的层级服务标识和监控内容。在需要获取监控数据时,通过预留的监 控接口采用Pull模式从时间序列库拉取各个层级监控模块的监控指标数据。在 另一个实施例中,层级监控模块在采集到监控数据时,并不上报可是要自己处 理得到监控指标数据再上报。
步骤S12,按照监控指标处理相应的监控数据并得到对应的监控指标数据。 此步骤可以在层级监控模块完成,也可以由服务端完成。根据设置的监控指标 对相应的监控数据进行统计、合并或计算等操作而得到对应的监控指标数据。 例如:对于“非200比例”这一监控指标,对网关KONG的监控数据统计、 计算,得到该比例为8%,则“非200比例”这一监控指标数据内容包括:层 级服务标识:KONG,内容(或值)为8%,另外还可以包括计算使用的监控 指标数据的存储链接。在一个实施例中,所述监控指标可分为服务通用指标和 层级服务特定指标。例如,将非200错误比例和平均延迟时间设置为通用指标, 根据各个层级服务设置包括符合各自特点的监控指标。当该步骤在层级监控模 块完成时,层级监控模块上报所述监控指标数据,服务端将其以指标样本的形 式存储到时间序列库中。在样本的特征标签中记载不同类别的数据,如服务名 称、所在层级、监测内容等等。
步骤S13,响应于所述监控指标数据满足报警规则生成报警数据,所述报 警数据至少包括故障级别、层级服务标识和监控指标数据。其中,所述报警规 则从服务特点、预期效果等出发,包括了各种需要报警的条件,当所述监控指 标数据满足报警规则时则生成报警数据,并在报警数据中注明服务标识、主题 (如报警规则名称或内容)以及更为详细内容,如涉及到的监控指标数据、监 控数据链接等。如图3所示,为两条报警数据,在该标题中包括了服务标识: midu,报警规则名称:请求非200比例5%,在详细信息中,记载了该报警数 据所在的当前服务:其中的一个的当前服务是 midu-backend-midu-admin-gateway,具体报警内容是intruvert qps请求非200 比例超过5%,并给出了具体值为100%。在本实施例中,根据报警数据中的服 务层级明确确定了受影响的业务一个是网关,一个是对外服务api。在一个实 施例中,在得到多个报警数据时,会按照报警数据的层级服务标识,根据服务 之间的调用关系,将具有服务调用关系的报警数据关联在一起生成报警链路。 并记录服务调用链路。为了能在每一个报警数据中得到报警链路情况,在得到 报警链路时在报警数据中记录所述报警数据服务调用链路信息。用户可点击链 路上的任何一个来查询具体的报警信息。当用户点击报警数据来查询时,响应 于查询指令,从时间序列数据库中获取所述报警数据的特征标签内容,其中记 载了详细的数据,如监控指标名称、故障级别、当前指标值、监控数据的链接 等等。
步骤S14,分析报警数据,响应于报警数据满足报警条件,根据报警策略 报警。本步骤中报警数据可以是服务端根据监控指标数据得到的,也可以是直 接从层级监控模块接收的层级报警数据,本发明将这些报警数据综合在一起进 行处理,因而即可以根据服务端得到的报警数据报警,也可以根据与其连接的 层级报警数据进行报警,进一步地,还可以对连接的其他报警源的报警数据进 行报警,从而将多种报警方式聚合在一起报警。在一个实施例中,报警条件包 括满足故障级别及报警链路长度。例如,当报警数据的故障级别为灾难级别即 可满足报警条件。如果报警数据的故障级别低于灾难级别,则在报警链路的级 数达到预定数量时即可满足报警条件。在满足报警条件时,根据故障级别及其 影响的服务,选择所述服务的相关人员作为报警对象进行报警。其中一个实施 例如图4A-4C所示。
步骤S41,获取报警数据。在一个实施例中,每当产生一个报警数据时, 均需要按照图4A-4C的流程判断是否需要报警及如何处理。
步骤S42,判断当前生成的报警数据的故障级别是否为最高的灾难级别, 如果为灾难级别,需要立即处理。则执行步骤S43。如果不是破灾难级别,如 不同级别的风险级别,则执行步骤S421,详见图4B。
步骤S43,获取该层级服务的特定指定人员,通过通讯终端向所述特定工 作人员发送紧急通知。通常在企业内部会有资产管理数据库,其中配置有对相 应资产、业务、服务、应用的多级负责工作人员,通常查询资产管理数据库的 工作人员配置表,可以得到某个服务的灾难级故障的处理人员及其通知方式, 如电话号码。通过通讯终端向所述特定工作人员发送紧急通知,例如通过语音 告知该特定人员报警的主题、详细内容及处理时限。而后计时根据所述处理时 限计时。
步骤S44,在计时时间到判断该次报警是否已处理。如果没有,则执行步 骤S441,详见图4C。如果已经处理执行步骤S45。
步骤S45,计时并监测新增报警数据。
步骤S46,判断在5分钟内是否有相同的新增报警数据,如果有,说明该 问题的处理没有成功,此时需要升级处理人员,则执行步骤S47。如果在在5 分钟内没有相同的新增报警数据,说明该报警中的故障已经消除,则结束此报 警处理流程。
步骤S47,获取该层级服务的多名指定人员,通过即时通讯应用建立工作 群组并计时。在即时通讯应用的工作群中贴出报警信息,包括故障主题、影响 的服务名称、发生时间、报警数据详细信息的链接、处理负责人及处理时限等。 其中一个实施例如图5所示。
步骤S48,在计时时间到判断是否已处理,如果已处理,则转到步骤S45。 如果没有处理,则在步骤S49,向该群中拉中高级处理人员已升级所述工作群 组,再返回步骤S48。
参见图4B。此流程承接步骤S42中,当报警数据的故障级别不是最高的 灾难级别时的处理流程,简要描述如下:
步骤S421,判断是否达到预置的报警链路级数。如2、4、5级等,可根 据故障级别及具体服务类别设置不同的级数。如果达到了,则执行步骤S422, 否则重复步骤S421。
步骤S422,从资产管理数据库获取该服务指定的处理人员。
步骤S423,利用即时通讯应用建立一级工作群组,并计时,如3分钟。
步骤S424,在计时时间到时判断该报警故障是否已处理,如果已处理, 则转到步骤S426,否则在步骤S425,向该群中拉中高级处理人员已升级所述 工作群组,再返回步骤S424。
步骤S426,计时并监测新增报警数据。
步骤S427判断在5分钟内是否有相同的新增报警数据,如果有,说明该 问题的处理没有成功,此时需要升级处理人员,则执行步骤S425。如果在在5 分钟内没有相同的新增报警数据,说明该报警中的故障已经消除,则结束此报 警处理流程。
参见图4C,此流程承接步骤S44中判断通讯终端报警没有处理的流程。
简要描述如下:
步骤S441,获取该层级服务的多名指定人员。
步骤S442,通过即时通讯应用建立一级工作群组并计时。
步骤S443,在计时时间到判断是否已处理,如果已处理,则转到步骤S445。 如果没有处理,则在步骤S444,向该群中拉中高级处理人员已升级所述工作 群组,再返回步骤S443。
步骤S445,计时并监测新增报警数据。
步骤S446,判断在5分钟内是否有相同的新增报警数据,如果有,说明 该问题的处理没有成功,此时需要升级处理人员,则执行步骤S444。如果在 在5分钟内没有相同的新增报警数据,说明该报警中的故障已经消除,则结束 此报警处理流程。
本发明在报警的方式处理上,由现有的研发自主处理模式变成自动确定处 理策略模式,通过结合现有通讯工具,设置不同的报警策略,例如,严重问题 3分钟在即时通讯中拉群通告、5分钟升级、10分钟到技术中心负责人。因而 对报警的处理更快。
图6为根据本发明一个实施例的监控系统原理框图。所述监控系统包括多 个层级监控模块1、报警数据模块3和报警模块4,在本实施例中,还可以连 接其他的报警源A1、A2。其中,所述层级监控模块1经配置以布置在服务的 多个层级模块,基于服务采集该层级模块的监控数据,所述监控数据至少包括 层级服务标识和监控内容。在一个实施例中,如图7所示。所述层级监控模块1包括:埋点采集单元11和数据上报单元12。其中,所述埋点采集单元1按 照监控指标在应层级模块的预置位置以埋点的方式采集数据。服务端根据监控 指标的需要,确定需要采集的数据及采集的位置,从而在相应的层级模块中埋 点。数据上报单元12按照服务端配置以数据格式上报数据,其中,所述格式 至少包括在数据中设置服务标记。在一些实施例中,数据上报单元12将埋点 采集单元11采集到的监控数据直接上报。而在另一些实施例中,所述层级监 控模块1还包括层级数据处理单元13和层级报警数据单元14。层级数据处理 单元13以按照层级监控指标数据,根据埋点数据生成监控指标数据;所述数 据上报单元12按照预置格式上报所述监控指标数据。层级报警数据单元14按 照层级报警规则生成层级报警数据;所述数据上报单元12按照预置格式上报 所述层级报警数据。在本实施例中,层级监控模块1将监控指标数据、监控数 据上报存储到时间序列数据库5中。
报警数据模块3通过监控接口2以Pull模式从时间序列数据库5中获取所 需要的监控指标数据,并按照报警规则分析所述监控指标数据。响应于所述监 控指标数据满足报警规则生成报警数据,所述报警数据至少包括故障级别、层 级服务标识和监控指标数据。在一个实施例中,如图8所示,所述报警数据模 块3包括报警数据生成单元31和报警链路单元32,其中,所述报警数据生成 单元31根据报警规则生成报警数据;所述报警链路单元32根据报警数据的服 务层级,按照服务调用关系建立报警链路。其中,所述报警链路单元32处理 的报警数据包括来自于报警数据生成单元31,也可以来自于层级报警数据单元 14及其他报警源A1-A2。所有的报警数据可存储在时间序列数据库5。例如, 在监控接口接收到来自于层级报警数据单元14及其他报警源A1-A2的报警数 据时,将其存储到时间序列数据库5中,同时通知报警数据模块3和报警模块 4。
报警模块4接收到报警数据后分析报警数据,响应于报警数据满足报警条 件,根据报警策略报警。具体地,如图9所示。所述报警模块4包括报警单元 41和报警通知单元42。其中,所述报警单元41在报警数据满足报警条件时生 成报警通知。所述的报警条件例如为如故障级别、报警链路长度。在报警数据 的故障级别为灾难级别即可满足报警条件;或者报警数据的故障级别低于灾难 级别,则在报警链路的级数达到预定数量时即可满足报警条件。所述报警通知 单元42在收到报警通知时,根据报警策略报警。其中,所述的报警策略包括 与故障级别对应的报警发出时限、通知工具和工作人员配置中的一者或多者。 所述通知工具包括通讯终端和即时通讯应用。如图4A-图4C所示。在报警的 故障在规定的时限内没有被处理或处理成功时,逐级升级工作群组,因而,报 警模块4还包括计时单元43,用于在所述报警通知单元42向工作人员发出报 警后计时;以及所述报警通知单元响应发出通知的预置时间内仍有相同的新增 报警数据,升级报警策略。
如图10所示,为本发明另一个实施例的监控系统原理框图。与图6中的 实施例相比,本发明中的层级监控模块仅上报监控数据,因而在所述系统中还 包括数据处理模块6,用于按照预定的监控指标处理上报的监控数据以得到监 控指标数据。在层级监控模块不具有处理能力时,本发明可提供数据处理的功 能。
本发明可适用于多种监控场景,层级具有处理能力时,可以仅进行报警处 理,当层级模块不具有处理能力时可提供数据处理功能,并且可以外接多种不 同的报警源,适用范围广、系统搭建方便。本本基于服务采集数据,并建立了 基于服务调用关系的报警链路,将现有的单点报警模式变成面向服务/业务的 流报警模式,能够快速定位故障点,并且可以快速量化对当前故障对服务/业 务的影响。
本发明中设置的监控指标侧重于评估服务的可用性,如不可用、少量问题、 大量问题和正常状态,设置通用服务指标和层级服务指标,因而设置的监控指 标及报警规则不再纷繁复杂。并且本发明中的监控数据、监控指标数据、报警 数据均以指标(metric)的形式保存在内置的时间序列数据库当中,通过强大的数 据模型,方便了监控过程中数据的统计、调用、查看等。
为了更加清楚地阐述本发明的相关内容,本发明还包括申请日为2020年7 月3日,申请号为202010636597.4、发明名称为“一种监控系统及方法”的专 利申请的所有内容,以及申请日为2020年7月3日,申请号为202010637270.9、 发明名称为“一种监控系统的告警方法及系统”的专利申请的所有内容。
上述实施例仅供说明本发明之用,而并非是对本发明的限制,有关技术领 域的普通技术人员,在不脱离本发明范围的情况下,还可以做出各种变化和变 型,因此,所有等同的技术方案也应属于本发明公开的范畴。
Claims (22)
1.一种监控方法,其中包括:
在服务的多个层级模块布置层级监控模块,基于服务采集该层级模块的监控数据,所述监控数据至少包括层级服务标识和监控内容;
按照监控指标获取对应的监控数据并得到对应的监控指标数据;
响应于所述监控指标数据满足报警规则生成报警数据,所述报警数据至少包括故障级别、层级服务标识和监控指标数据;以及
分析报警数据,响应于报警数据满足报警条件,根据报警策略报警。
2.根据权利要求1所述的方法,其中进一步包括:所述层级监控模块按照监控指标在对应层级模块的预置位置埋点,并在上报数据时的数据格式中设置服务标识。
3.根据权利要求2所述的方法,其中进一步包括:所述层级监控模块按照层级监控指标数据,根据埋点数据生成监控指标数据再上报。
4.根据权利要求3所述的方法,其中进一步包括:将所述层级监控模块上报的监控指标数据以指标样本的形式存储在时间序列数据库中,并在一个或多个样本特征标签中分别记录所述监控数据的层级服务标识和监控内容。
5.根据权利要求4所述的方法,其中进一步包括:通过监控接口以Pull模式从时间序列数据库中获取来自于层级监控模块的监控数据。
6.根据权利要求2所述的方法,其中进一步包括:层级监控模块按照层级报警规则生成层级报警数据并上报。
7.根据权利要求6所述的方法,其中,分析报警数据步骤中的报警数据包括层级报警数据。
8.根据权利要求7所述的方法,其中进一步包括:根据报警数据的服务层级,按照服务调用关系建立报警链路,并记录所述报警数据的层级服务的调用服务链路。
9.根据权利要求6所述的方法,其中进一步包括:根据报警策略报警的步骤包括:在所述报警数据的故障级别为灾难级别时,在生成所述报警数据时立即向相关工作人员发出紧急通知。
10.根据权利要求9所述的方法,其中,在发出紧急通知后计时,响应于在预置时间内仍有相同的新增报警数据,通过即时通讯应用建立一级工作组;响应于在一级工作组建立后的预置时间内仍然有相同的新增报警数据,升级工作组。
11.根据权利要求9所述的方法,其中,通过通讯终端向相关工作人员发出紧急通知。
12.根据权利要求6所述的方法,其中进一步包括:响应于所述报警数据的级别低于灾难级别,在得到报警链路之后的预置时间内通过即时通讯应用建立一级工作组,并监测报警是否有相同的新增报警数据,在预置时间内仍然有新增报警数据时升级工作组。
13.一种监控系统,包括:
层级监控模块,经配置以布置在服务的多个层级模块,基于服务采集该层级模块的监控数据,所述监控数据至少包括层级服务标识和监控内容;
数据处理模块,经配置以按照监控指标获取对应的监控数据并得到对应监控指标数据;
报警数据模块,经配置以响应于所述监控指标数据满足报警规则生成报警数据,所述报警数据至少包括故障级别、层级服务标识和监控指标数据;以及
报警模块,经配置以分析报警数据,响应于报警数据满足报警条件,根据报警策略报警。
14.根据权利要求13所述的系统,其中所述层级监控模块包括:
埋点采集单元,经配置以在按照监控指标在应层级模块的预置位置以埋点的方式采集数据;以及
数据上报单元,经配置以预置的格式上报数据,其中,所述格式至少包括在数据中设置服务标记。
15.根据权利要求14所述的系统,其中所述数据处理模块设置于层级模块,根据埋点数据生成监控指标数据;所述数据上报单元按照预置格式上报所述监控指标数据。
16.权利要求15所述的系统,其中还进一步包括时间序列数据库,用于存储数据上报单元上报的监控指标数据。
17.根据权利要求14所述的系统,其中所述层级监控模块进一步包括:
层级报警数据单元,经配置以按照层级报警规则生成层级报警数据;所述数据上报单元按照预置格式上报所述层级报警数据。
18.根据权利要求15所述的系统,其中还进一步包括:
监控接口,经配置用以获取层级监控模块的上报数据。
19.根据权利要求13所述的系统,其中所述报警数据模块进一步包括:
报警数据生成单元,经配置以根据报警规则生成报警数据;以及
报警链路单元,经配置以根据报警数据的服务层级,按照服务调用关系建立报警链路。
20.根据权利要求13所述的系统,其中所述报警模块包括:
报警单元,经配置以响应报警数据满足报警条件,生成报警通知;以及
报警通知单元,经配置以在收到报警通知时,根据报警策略报警。
21.根据权利要求20所述的系统,其中所述报警模块还进一步包括:计时单元,经配置以在发出报警后按照预置时间段计时;以及所述报警通知单元响应在发出报警的预置时间段内仍有相同的新增报警数据,升级报警策略。
22.根据权利要求18所述的系统,其中所述监控接口连接多个报警源以接收其报警数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010635157.7A CN111983960A (zh) | 2020-07-03 | 2020-07-03 | 一种监控系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010635157.7A CN111983960A (zh) | 2020-07-03 | 2020-07-03 | 一种监控系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111983960A true CN111983960A (zh) | 2020-11-24 |
Family
ID=73438939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010635157.7A Pending CN111983960A (zh) | 2020-07-03 | 2020-07-03 | 一种监控系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111983960A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113194029A (zh) * | 2021-05-08 | 2021-07-30 | 上海道客网络科技有限公司 | 自动识别和隔离服务网格边车故障的方法、系统、介质和设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130013371A1 (en) * | 2011-07-04 | 2013-01-10 | Norik Katsakhyan | System and method for tracking retail sales performance |
CN108964995A (zh) * | 2018-07-03 | 2018-12-07 | 上海新炬网络信息技术股份有限公司 | 基于时间轴事件的日志关联分析方法 |
CN110955581A (zh) * | 2019-11-15 | 2020-04-03 | 北京金山云网络技术有限公司 | 线上软件异常告警方法、装置、电子设备及存储介质 |
-
2020
- 2020-07-03 CN CN202010635157.7A patent/CN111983960A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130013371A1 (en) * | 2011-07-04 | 2013-01-10 | Norik Katsakhyan | System and method for tracking retail sales performance |
CN108964995A (zh) * | 2018-07-03 | 2018-12-07 | 上海新炬网络信息技术股份有限公司 | 基于时间轴事件的日志关联分析方法 |
CN110955581A (zh) * | 2019-11-15 | 2020-04-03 | 北京金山云网络技术有限公司 | 线上软件异常告警方法、装置、电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113194029A (zh) * | 2021-05-08 | 2021-07-30 | 上海道客网络科技有限公司 | 自动识别和隔离服务网格边车故障的方法、系统、介质和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110661659B (zh) | 一种告警方法、装置、系统及电子设备 | |
US9491071B2 (en) | System and method for dynamically grouping devices based on present device conditions | |
CN112653586B (zh) | 基于全链路监控的时空大数据平台应用性能管理方法 | |
US7091846B2 (en) | Methods and apparatus for handling information regarding an alarm for a communication network | |
CN108833137A (zh) | 一种柔性微服务监控框架架构 | |
CN110535713B (zh) | 监控管理系统以及监控管理方法 | |
CN112965874B (zh) | 一种可配置的监控告警方法及系统 | |
CN106533782A (zh) | 一种实时发现线下场所业务故障的方法和系统 | |
CN113190423B (zh) | 业务数据的监控方法、装置及系统 | |
CN103370904A (zh) | 用于确定网络意外事件的严重性的方法 | |
US20080168044A1 (en) | System and method for providing performance statistics for application components | |
CN111538563A (zh) | 一种对Kubernetes的事件分析方法及装置 | |
CN109903175A (zh) | 一种保险核心系统监控平台 | |
JP2014102661A (ja) | 適用判定プログラム、障害検出装置および適用判定方法 | |
CN113452607A (zh) | 分布式链路采集的方法、装置、计算设备和存储介质 | |
CN110221947A (zh) | 告警信息巡检方法、系统、计算机装置及可读存储介质 | |
CN107635003A (zh) | 系统日志的管理方法、装置及系统 | |
CN111983947A (zh) | 一种监控系统的告警方法及系统 | |
CN113472858B (zh) | 埋点数据处理方法、装置及电子设备 | |
US20020026433A1 (en) | Knowledge system and methods of business alerting and business analysis | |
CN111983960A (zh) | 一种监控系统及方法 | |
CN113760634A (zh) | 一种数据处理方法和装置 | |
CN108156061B (zh) | esb监控服务平台 | |
KR101288535B1 (ko) | 통신 시스템 모니터링 방법 및 이를 위한 장치 | |
KR20020070274A (ko) | 메세지 대기 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |