CN114610560B - 系统异常监控方法、装置和存储介质 - Google Patents

系统异常监控方法、装置和存储介质 Download PDF

Info

Publication number
CN114610560B
CN114610560B CN202011414563.7A CN202011414563A CN114610560B CN 114610560 B CN114610560 B CN 114610560B CN 202011414563 A CN202011414563 A CN 202011414563A CN 114610560 B CN114610560 B CN 114610560B
Authority
CN
China
Prior art keywords
monitoring service
monitoring
service
alarm
abnormal data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011414563.7A
Other languages
English (en)
Other versions
CN114610560A (zh
Inventor
朱龙云
袁文頔
李子达
陈偲颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011414563.7A priority Critical patent/CN114610560B/zh
Publication of CN114610560A publication Critical patent/CN114610560A/zh
Application granted granted Critical
Publication of CN114610560B publication Critical patent/CN114610560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Abstract

本申请涉及一种系统异常监控方法、装置、计算机设备和存储介质。方法包括:获取异常数据告警,确定与异常数据告警对应的异常数据;根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务,其中,监控服务为从第一维度对一业务进行监控的第一监控服务或从第二维度对该业务进行监控的第二监控服务,第一监控服务与第二监控服务关联;检测待校验监控服务是否上报与异常数据对应的目标告警,得到检测结果;根据检测结果和异常数据告警,确定系统异常信息。通过上述方案,能够提高监控系统自身可用性,从而得到更为准确的监控结果。

Description

系统异常监控方法、装置和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种系统异常监控方法、装置、计算机设备和存储介质。
背景技术
对业务数据进行异常监控,减少系统不能提供服务的时间,是实现业务系统高可用一个重要保证。对业务系统中的各项业务,一般通过监控系统来实现异常数据的监控。
业务系统作为被监控系统,通常监控系统是基于被监控系统上报异常数据来触发告警,即上报异常数据达到一定阈值或则符合一定规律就触发告警。这种监控方式通常会遇到异常漏报问题:例如,监控系统本身的逻辑问题即监控服务自身bug(漏洞)没有及时发现异常数据;再例如,监控系统的监控逻辑不够完备,有系统性缺陷,如业务没有及时上报异常或则检测到告警但是没有及时通知相关人员,即理论上一定存在漏报可能性;还有监控系统自身失效,没有正常工作和及时发现被监控系统异常,造成异常漏报。上述这几种情况都存在监控系统没有及时发现业务系统中的异常数据的问题,导致监控系统的监控结果不够精确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高监控结果准确性的系统异常监控方法、装置、计算机设备和存储介质。
一种系统异常监控方法,方法包括:
获取异常数据告警,确定与异常数据告警对应的异常数据;
根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务,其中,监控服务为从第一维度对一业务进行监控的第一监控服务或从第二维度对该业务进行监控的第二监控服务,第一监控服务与第二监控服务关联;检测待校验监控服务是否上报与异常数据对应的目标告警,得到检测结果;
根据检测结果和异常数据告警,确定系统异常信息。
一种系统异常监控装置,装置包括:
告警获取模块,用于获取异常数据告警,确定与异常数据告警对应的异常数据;
待校验监控服务确定模块,用于根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务,其中,监控服务为从第一维度对一业务进行监控的第一监控服务或从第二维度对该业务进行监控的第二监控服务,第一监控服务与第二监控服务关联;
待校验监控服务检测模块,用于检测待校验监控服务是否上报与异常数据对应的目标告警,得到检测结果;
系统异常信息确定模块,用于根据检测结果和异常数据告警,确定系统异常信息。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取异常数据告警,确定与异常数据告警对应的异常数据;
根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务,其中,监控服务为从第一维度对一业务进行监控的第一监控服务或从第二维度对该业务进行监控的第二监控服务,第一监控服务与第二监控服务关联;
检测待校验监控服务是否上报与异常数据对应的目标告警,得到检测结果;
根据检测结果和异常数据告警,确定系统异常信息。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取异常数据告警,确定与异常数据告警对应的异常数据;
根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务,其中,监控服务为从第一维度对一业务进行监控的第一监控服务或从第二维度对该业务进行监控的第二监控服务,第一监控服务与第二监控服务关联;
检测待校验监控服务是否上报与异常数据对应的目标告警,得到检测结果;
根据检测结果和异常数据告警,确定系统异常信息。
上述系统异常监控方法、装置、计算机设备和存储介质,通过第一监控服务和第二监控服务从不同维度对业务进行监控,获取异常数据告警,确定与异常数据告警对应的异常数据,根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务,并根据待校验监控服务是否上报与异常数据对应的目标告警,实现对待校验监控服务的检测,根据检测结果和异常数据告警,确定系统异常信息。相较于传统的单一维度的数据监控,通过对业务数据进行多维度的监控,以及关联的第一监控服务和第二监控服务,从不同维度的异常告警监测,校验是否存在告警上报异常,能够提高监控系统自身可用性,从而得到更为准确的监控结果。
附图说明
图1为一个实施例中系统异常监控方法的应用环境图;
图2为一个实施例中系统异常监控方法的流程示意图;
图3为另一个实施例中系统异常监控方法的流程示意图;
图4为再一个实施例中系统异常监控方法的流程示意图;
图5为又一个实施例中系统异常监控方法的流程示意图;
图6为一个实施例中系统异常监控方法的告警生成过程流程示意图;
图7为一个实施例中系统异常监控方法的心跳数据获取示意图;
图8为一个实施例中系统异常监控方法中监控面板的界面示意图;
图9为还一个实施例中系统异常监控方法的流程示意图;
图10为一个实施例中系统异常监控方法的数据流程示意图;
图11为一个实施例中系统异常监控装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的系统异常监控方法,可以应用于如图1所示的应用环境中。其中,监控系统102中配置有第一监控服务、第二监控服务和元监控服务,监控系统102对业务系统104中的业务进行监控,并将监控结果上报至终端106。
监控系统102中的第一监控服务和第二监控服务从不同维度对业务系统104的业务进行监控,并将监控到的异常数据上报至元监控服务。元监控服务接收第一监控服务和第二监控服务的告警信息。通过比较第一监控服务和第二监控服务上报的告警,判断第一监控服务和第二监控服务是否正常工作,并将判断结果上报至终端106。
其中,终端106可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,监控系统102和业务系统104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种系统异常监控方法,以该方法应用于图1中的监控系统为例进行说明,包括以下步骤202至步骤208。
步骤202,获取异常数据告警,确定与异常数据告警对应的异常数据。
异常数据告警是指某个业务存在异常数据时生成的告警信息。异常数据是指在监控的数据存在数据量突变情况的数据。在实施例中,监控系统通过监控服务对业务系统中的数据进行异常监控,生成与异常数据对应的异常数据告警,监控服务是指对业务系统中的业务进行异常数据监控的服务。在实施例中,对同一个业务进行数据监控的监控服务的数量可以是两个或两个以上。
监控系统接收监控服务上报的异常数据告警,通过提取异常数据告警中携带的数据标识信息,可以确定异常数据告警对应的异常数据。
在一个实施例中,获取异常数据告警包括:通过监控服务,分别获取目标检测时间点以及目标检测时间点的相邻检测时间点对应的业务数据量;根据业务数据量,得到目标检测时间点与相邻检测时间点的业务数据差值;当业务数据差值大于预设变化阈值时,生成异常数据告警。
目标检测时间点的相邻检测时间点可以是目标检测时间点的上一时间点也可以是目标检测时间点的下一时间点。根据目标检测时间点与相邻检测时间点的业务数据差值,可以确定业务数据量的波动情况,一旦波动大于允许的预设阈值,则生成目标告警并上报,提高监控的灵敏性。
步骤204,根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务。
其中,监控服务为从第一维度对一业务进行监控的第一监控服务或从第二维度对该业务进行监控的第二监控服务,第一监控服务与第二监控服务关联。这里的第一维度和第二维度用与表征从不同的角度对同一个业务进行监控,在实施例中,第一监控服务与第二监控服务的均可以包括两个以上的子维度,同一监控服务和不同监控服务的多个子维度都是互不相同的。例如,第一监控服务从子维度1、2、3对业务A进行监控,第一监控服务从子维度4、5对业务A进行监控,则子维度1-5应当是不同的子维度。通过不同的维度(或子维度)能够从不同的方面对业务进行监控,提高监控结果的可靠性。
由于第一监控服务和第二监控服务是从不同的维度对同一业务进行监控的,当第一监控服务监测到异常数据时,如果监控系统的监控逻辑在不存在异常的条件下,第二监控服务也应当上报同一数据对应的异常信息。通过将第一监控服务与第二监控服务关联,监控系统在接收到其中一个监控服务的异常数据告警时,需要对该监控服务关联的另一个监控服务进行校验,以确定该关联的监控服务是否存在异常。
需要说明的是,第一监控服务和第二监控服务中的“第一”和“第二”旨在区分不同的监控服务,在实际应用中,第一监控服务和第二监控服务可以互换。同理,第一维度和第二维度中的“第一”和“第二”旨在区分不同的数据维度,在实际应用中,第一维度和第二维度也可以互换。
步骤206,检测待校验监控服务是否上报与异常数据对应的目标告警,得到检测结果。
待校验监控服务是否上报与异常数据对应的目标告警可以基于待校验监控服务是否上报异常数据告警以及上报异常数据告警中是否包含上报与异常数据对应的目标告警来确定。
检测结果包括待校验监控服务有上报目标告警或是待校验监控服务未上报目标告警。其中,当待校验监控服务未上报异常数据告警或是上报异常数据告警中不包含目标告警时,即为待校验监控服务未上报目标告警。
当待校验监控服务有上报异常数据告警且上报异常数据告警中包含目标告警时,即为待校验监控服务有上报目标告警。需要说明的是,第一监控服务和第二监控服务针对同一业务在同一时间发生的同一异常情况,应当均上报与异常数据对应的异常数据告警。
在一个实施例中,通过在预设时间范围内,检测待校验监控服务是否上报目标告警进行检测。其中,预设时间范围可以是10s、15s等,具体可以根据实际需要进行设定。
在一个具体的实施例中,第一监控服务和第二监控服务为异步监控,即对同一业务的数据检测时间点存在时差,监控系统检测待校验监控服务是否上报目标告警,可以基于第一监控服务和第二监控服务对同一业务进行监控的异步时差,在该异步时差对应的时间范围内,检测待校验监控服务上报的异常数据告警中是否包含该目标告警。
步骤208,根据检测结果和异常数据告警,确定系统异常信息。
检测结果用于表征待校验监控服务是否存在异常,异常数据告警用于表征业务是否存在异常。系统异常信息包括业务系统中的业务是否存在异常以及监控系统中的监控服务是否存在异常。一方面,通过第一监控服务与第二监控服务对业务进行监控,能够避免其中一个监控服务失效导致异常漏报的情况出现,实现了监控互补。另一方面,通过检测结果和异常数据告警,既能够及时发现业务的异常也能及时发现监控服务的异常,提高了监控系统的完备性。
在一个实施例中,如图3所示,根据检测结果和异常数据告警,确定系统异常信息即步骤208,包括步骤302至步骤304。
步骤302,当检测结果为待校验监控服务未上报目标告警时,确定系统异常信息为待校验监控服务和业务均存在异常。
步骤304,当检测结果为待校验监控服务有上报目标告警时,确定系统异常信息为业务存在异常。
在实施例中,监控系统通过元监控服务对第一监控服务和第二监控服务进行监控,业务存在异常的系统异常信息由监控到数据异常的第一监控服务或第二监控服务直接上报至终端,待校验监控服务存在异常的系统异常信息可以由元监控服务上报至终端。
第一监控服务或第二监控服务的上报对象与元监控服务的上报对象可以是不同的终端。在实施例中,第一监控服务或第二监控服务的上报对象为第一工单系统,元监控服务的上报对象包括第二工单系统、移动消息群以及监控面板中的至少一个。其中,第二工单系统是指触达到监控服务维护人员的系统,控制面板能通过将信息推送至显示界面触达到监控系统开发人员和运营人员,移动消息群能触达到监控系统开发人员和运营人员对应的终端。通过配置不同的异常上报终端,能够有针对性地触达对应的人员,对异常情况实现高效可靠的维护与处理。
上述系统异常监控方法,通过第一监控服务和第二监控服务从不同维度对业务进行监控,获取异常数据告警,确定与异常数据告警对应的异常数据,根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务,并根据待校验监控服务是否上报与异常数据对应的目标告警,实现对待校验监控服务的检测,根据检测结果和异常数据告警,确定系统异常信息。相较于传统的单一维度的数据监控,通过对业务数据进行多维度的监控,以及关联的第一监控服务和第二监控服务,从不同维度的异常告警监测,校验是否存在告警上报异常,能够提高监控系统自身可用性,从而得到更为准确的监控结果。
在一个实施例中,第一监控服务用于从第一维度对一业务的待监控数据进行监控,第二监控服务用于从第二维度对该业务的待监控数据中的目标数据进行监控;
根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务包括:当异常数据告警对应的异常数据为目标数据时,根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务。
其中,第一监控服务可以是以业务的各项基本数据为待监控数据进行监控,第二监控服务可以是对业务的关键指标对应的数据进行监控,业务的关键指标则对应业务的待监控数据中的目标数据。关键指标对应的数据发生异常时,基本数据中必然存在异常的数据,但是,对于生产环境常见的比较低级别的基本数据发生异常时,关键指标不一定发生异常。以游戏业务系统的游戏道具发放业务为例,游戏业务系统向每一个等级的游戏玩家发放的道具的数量、游戏玩家的账户余额等为业务的基本数据,由第一监控服务进行监测。道具发放量为目标数据,游戏业务系统总的道具发放量为关键指标,由第二监控服务进行监测,其中,游戏玩家的账户余额的变化,可能是用户自身的充值行为导致的,属于低级别的基本数据,当游戏玩家的账户余额异常时,不会对游戏业务系统总的道具发放量产生影响。但是,当监控到某个等级的游戏玩家发放的道具的数量发生异常时,必然会对游戏业务系统总的道具发放量产生影响,所以,当异常数据告警对应的异常数据为游戏玩家发放的道具的数量这类目标数据时,监控系统确定监控服务关联的待校验监控服务,进一步校验待校验监控服务是否上报对应的告警,当异常数据告警对应的异常数据为不属于目标数据时,第一监控服务不需要上报告警,因此,不需要对第二监控服务进行校验。
业务中的目标数据如系统入口流量、系统输出量等。例如游戏营销场景中的系统发送道具、购物营销场景中的系统派送红包等,在该些业务场景下,系统发送的数据应该维持在稳定的状态,因此,通过第二监控服务对目标数据是否稳定进行监控,当监控到数据变化大于设定的条件时,即视为该业务存在数据异常,需要上报该业务对应的异常数据告警。
进一步地,元监控服务接收监控服务上报异常数据告警,并根据上报异常数据告警的监控服务,确定监控服务关联的待校验监控服务。具体来说,当上报异常数据告警的监控服务为第一监控服务时,可以基于业务逻辑判断该告警是否影响该业务的关键指标,如影响关键指标,则异常数据告警对应的异常数据为目标数据,如不影响关键指标,则异常数据告警对应的异常数据不为目标数据。当上报异常数据告警的监控服务为第二监控服务时,判定异常数据告警对应的异常数据维度为目标数据。当异常数据告警对应的数据维度不为目标数据时,不需要对待校验监控服务进行检测。
在一个实施例中,第二监控服务作为第一监控服务的补充监控服务,用于对第一监控服务监控的业务的各项基础数据中的目标数据进行补充监控,也就是说,第二监控服务上报的异常数据告警都是目标告警。
通过区分第一监控服务与第二监控服务对同一业务的监控范围,能够有针对性地对目标数据进行重点监控,以提高监控系统对不同数据的监控等级的划分,便于及时有效应对异常情况。
在一个实施例中,第一监控服务和第二监控服务为针对同一业务的异步监控。
异步监控是指针对同一业务的检测时间点存在时差,通过不同检测时间点进行检测数据来体现,例如,设业务的数据序列为:S-6,S-5,S-4,S-3,S-2,S-1,S0,S1,S2,S3,其中,S0表示当前检测点单位时间的业务数据量,单位时间可以是1秒、30秒、1分钟等,单位时间具体可以根据实际场景需要进行设定,增加系统监控完备性,第二监控服务的实时性可以相对第一监控服务弱一些,为提高第二监控服务的准确性,可在S3时刻之后检测S0时刻变化。以单位时间为1分钟为例,S-1表示当前检测点前一分钟数量,S1 表示当前检测点后一分钟数量,其它依次类推。通过将第一监控服务的数据检测时间点配置为早于第二监控服务对该数据的数据检测时间点,能够得到更为准确的比较数据,增加系统监控完备性,得到准确的监控结果。
需要说明的是,不管第一监控服务和第二监控服务对业务的监控范围是相同的还是不同的,都可以采用异步监控的方式实现。必要时,下面各实施例以第一监控服务和第二监控服务对业务的监控范围不同为例进行说明,可以理解,下面各实施例中在第一监控服务和第二监控服务对业务的监控范围相同的情况下同样适用。
在一个实施例中,监控服务的检测时间点早于待校验监控服务的检测时间点。如图4所示,检测待校验监控服务是否上报与异常数据对应的目标告警,得到检测结果包括步骤402至步骤406。
步骤402,根据异常数据告警的接收时间,获取在接收时间之后的预设时长内待校验监控服务上报的延时异常数据告警。
预设时长为第一监控服务和第二监控服务的异步时差。
步骤404,当延时异常数据告警不存在与异常数据对应的目标告警时,得到待校验监控服务未上报目标告警的检测结果。
步骤406,当延时异常数据告警存在与异常数据对应的目标告警时,得到待校验监控服务有上报目标告警的检测结果。
在实施例中,第一监控服务为对业务的基础数据的检测,为实时检测,第二监控服务为对业务的关键指标的检测,为延时检测。监控服务的检测时间点早于待校验监控服务的检测时间点,即对应为监控服务为第一监控服务,待校验监控服务为第二监控服务。
进一步地,元监控服务在接收到第一监控服务上报的目标告警时,基于该目标告警携带的接收时间以及预设时长,获取第二监控服务在该接收时间之后的预设时长内上报的异常数据告警,通过检测异常数据告警中是否包括目标告警,得到第二监控服务是否上报目标告警的检测结果。通过配置检测时间点的时差,能够在确保系统监控的完备性的前提下,进一步缩小异常数据告警的比对范围,减小了数据处理量,避免长时间等待导致的数据积压,提高元监控服务的处理速度。
在一个实施例中,监控服务的检测时间点晚于待校验监控服务的检测时间点。检测待校验监控服务是否上报与异常数据对应的目标告警,得到检测结果包括步骤502至步骤506。
步骤502,获取待校验监控服务上报的历史异常数据告警。
步骤504,当历史异常数据告警中存在与异常数据对应的目标告警时,得到待校验监控服务有上报目标告警的检测结果。
步骤506,当历史异常数据告警中不存在与异常数据对应的目标告警时,得到待校验监控服务未上报目标告警的检测结果。
在实施例中,历史异常数据告警是指已上报至元监控服务的异常数据告警,监控服务的检测时间点早于待校验监控服务的检测时间点,即对应为监控服务为第二监控服务,待校验监控服务为第一监控服务,由于第一监控服务的时效性比第二监控服务强,但有可能存在数据异常漏报的情况。通过准确性更强的第二监控服务,对第一监控服务上报的异常数据告警进行补充校验,如果第二监控服务监控到的异常数据告警,第一监控服务未上报至元监控服务,则表征第一监控服务存在异常或是告警漏报。通过第一监控服务未上报目标告警的检测结果,得到包括第一监控系统异常的系统异常结果。
在一个实施例中,如图6所示,获取异常数据告警包括以下步骤602至步骤612。
步骤602,通过监控服务,分别获取目标检测时间点以及目标检测时间点的相邻检测时间点对应的业务数据量。
步骤604,根据业务数据量,得到目标检测时间点与相邻检测时间点的业务数据差值。
步骤606,比较业务数据差值是否大于预设变化阈值;若是,则进入步骤608,若否,则跳转至下一目标检测时间点。
步骤608,确定业务数据差值对应的波动数据,比较波动数据是否大于预设波动阈值;若是,则进入步骤610,若否,则跳转至下一目标检测时间点。
步骤610,获取以目标检测时间点为中心的时间段内的数据变化,比较数据变化是否大于预设变化阈值;若是,则进入步骤612,若否,则跳转至下一目标检测时间点。
步骤612,生成异常数据告警。
通过多层级多维度的阈值比较,能够有效提高异常数据告警的准确性,避免生成错误的异常数据告警。
在实施例中,以目标数据的业务数据量序列为S-6,S-5,S-4,S-3,S-2,S-1,S0,S1,S2,S3为例,对上述方案进行说明,当前检测目标是:S0 相对S-1 变化。检测方法为,检测目标数据的业务数据量是否有突然变化,如陡增或则陡降。为避免骚扰和误报,需把业务数据量波动或毛刺变化去掉,具体如下:
首先,计算关键指标在0时刻变化,即S0相对于S-1变化。
若S1>S0,令波动数据val = S1/ S0 (S0不为0),为指标陡增,若S1<S0,令波动数据val = - S0/ S1(S1不为0),为指标陡降,如果S1和S0中绝对值较小的数值为0,可以结合业务特点设置val。如:当绝对值较大的数值为(0,10]时,令波动数据val =1,当绝对值较大的数值为(20,30]时,令波动数据val =2,当绝对值较大的数值为大于30时,令波动数据val =3。可以理解,各个区间对应的范围可以根据实际业务进行调整。
若val的绝对值≥ T(为波动阈值,可调)说明业务发生波动,可能需要告警。进行下面步骤检测,否则进行下一时刻检测。
计算当前检测点(S0,S1)前后数据指标:
异常变化前五个时间序列平均值NumFront = (S-5 + S-4 + S-3 + S-2 +S-1)/5;
异常变化后三个时间序列平均值NumBack = (S2 + S3 + S4)/3 ;
异常变化前1个时间序列值NumPre = S-1
异常变化后1个时间序列值NumNext = S2
判断是否需要触发告警,比较S0,S1前后的均值变化和临近值变化。分别计算NumBack相对NumFront和NumNext相对NumPre变化,如果大于设定阈值,则触发告警。反之认为该处变化为毛刺,可忽略。通过考虑目标检测时间点前后的均值变化和临近值变化,实现毛刺过滤,避免告警骚扰和误报。
在实施例中,方法还包括:当未收到第一监控服务或第二监控服务上报的心跳信息或心跳信息的上报时间与接收时间的时间间隔大于预设允许偏差时,生成并上报监控服务异常信息。
心跳信息是指按预设时间间隔上报的、用于标明自己在正常工作的信息。在实施例中,第一监控服务和第二监控服务上报的心跳信息至元监控服务,元监控服务上报心跳信息至终端。元监控服务基于第一监控服务和第二监控服务上报的心跳信息,判断第一监控服务或第二监控服务是否正常工作,终端通过接收查看元监控服务上报的心跳信息,判断元监控服务是否正常工作。
在其他实施例中,如图7所示,可以由元监控服务对第一监控服务和第二监控服务进行主动探测,根据第一监控服务和第二监控服务各自应答,确定第一监控服务和第二监控服务是否正常运行。
在实施例中,心跳信息包括监控服务ID和心跳信息上报时间。当元监控服务检测到第一监控服务或第二监控服务对应心跳信息的上报时间与接收时间有较大偏差时,生成并上报监控服务异常信息。
如图8所示,元监控服务每隔一定时间,向终端发送心跳消息,时间间隔可以较大,如20分钟或则30分钟。如向移动消息群发送心跳消息,移动消息群参与者主要是监控系统开发和运营人员,一般会是多人。当有人发现消息群超过指定时间没有心跳信息,则可以通知相关人员监控系统可能存在异常。移动消息群作为系统监控的最后一个环节,实时性要求不高,只需监控系统开发和运营人员每天随机观察一下即可。
如图9所示,提供了一种系统异常监控方法,包括以下步骤902至步骤920:
步骤902,获取异常数据告警,确定与异常数据告警对应的异常数据。
步骤904,根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务,其中,监控服务为从第一维度对一业务进行监控的第一监控服务或从第二维度对该业务进行监控的第二监控服务,第一监控服务与第二监控服务关联。
步骤906,当待校验监控服务为第二监控服务时,根据异常数据告警的接收时间,获取在接收时间之后的预设时长内第二监控服务上报的延时异常数据告警。
步骤908,当延时异常数据告警不存在与异常数据对应的目标告警时,得到待校验监控服务未上报目标告警的检测结果,进入步骤918。
步骤910,当延时异常数据告警存在与异常数据对应的目标告警时,得到待校验监控服务有上报目标告警的检测结果,进入步骤920。
步骤912,当待校验监控服务为第一监控服务时,获取第一监控服务上报的历史异常数据告警。
步骤914,当历史异常数据告警中存在与异常数据对应的目标告警时,得到待校验监控服务有上报目标告警的检测结果,进入步骤920。
步骤916,当历史异常数据告警中不存在与异常数据对应的目标告警时,得到待校验监控服务未上报目标告警的检测结果,进入步骤918。
步骤918,确定系统异常信息为待校验监控服务和业务均存在异常。
步骤920,确定系统异常信息为业务存在异常。
本申请提供一种对游戏营销系统进行监控的应用场景,该应用场景应用上述的系统异常监控方法。具体地,该系统异常监控方法在该应用场景的应用如下:
如图10所示,监控系统包括监控服务M、监控服务M1以及元监控服务MM,业务中的基本数据与Service A/B/C对应,传统的监控一般只提供单一维度监控服务M对基本数据进行监控,如果Service A/B/C任何一个数据漏报异常,就可能使得监控服务M不能及时发现系统异常,而在生产环境Service因为开发新特性或修复异常漏报异常并不是一个小概率事件。
在本方案中,监控服务M对游戏营销系统的基本数据(对应Service A/B/C)进行监控,监控服务M1对游戏营销系统若干关键指标(对应Service A/B),如游戏道具发放量进行监控,系统运营时,监控服务M对业务上报的异常数据进行监控。监控服务M在检测到系统异常时,除了给原有工单系统继续上报告警,也将告警向元监控服务MM上报一份。没有异常发生时则向元监控服务MM上报心跳信息。监控服务M自身有异常也向元监控服务MM上报。
监控服务M1对系统关键指标监控。监控服务M1对系统关键指标变化进行监控,将检测到的异常告警一份上报到元监控服务MM,一份上报到原有工单系统。没有异常发生时则向元监控服务MM上报心跳信息。监控服务M1自身有异常也向元监控服务MM上报。在其他实施例中,监控服务M1只要出现变化就告警,不过滤波形或则毛刺变化,即短暂变化后恢复也作为异常。还可以与对涉及类交易关键节点可以进行对账验证或是用机器学习对系统指标参数进行异常检测等。
元监控服务MM对监控服务M和监控服务M1进行监控,并将监控得到的相关信息通过监控面板/移动消息群/工单系统1触达到监控系统开发运营人员。
监控服务M1对游戏营销的关键指标监控是对原有监控服务M有力补充,大大缓解因为游戏营销的业务服务漏报异常和监控服务M自身逻辑Bug引起的异常漏报压力,对监控系统高可用改造,完全不涉及被监控服务的改造。
具体来说,监控系统正常工作时,异常产生,业务相关人员会收到两条告警。第一条监控服务M产生的基于业务基础数据异常产生变化的告警,第二条是监控服务M因业务中的关键指标异常产生变化的告警。第二条告警是第一条告警的补充,也说明异常的影响范围。元监控服务MM比对两条告警,确认监控服务M和监控服务M1正常工作,不触发元监控告警。
监控系统发生异常时,异常产生,业务相关人员会收到一条告警。由元监控服务MM进行分析,如果只有监控服务M的告警,可以基于业务逻辑判断,如果该告警不影响关键指标,可以认为监控系统正常工作。在生产环境常见是比较低级别的告警,通常更多是提醒。如果该告警影响关键指标,而元监控服务MM没有接收到监控服务M1上报的告警,则触发告警触达监控系统开发人员,通知监控服务M1可能有异常。如果元监控服务MM发现只有监控服务M1的告警,没有监控服务M告警,发告警触达监控系统开发人员,通知M可能有异常。
监控服务M和监控服务M1通过心跳机制告诉元监控服务MM自身正常工作。元监控服务MM(低频的)将系统监控整体正常工作的心跳信息通过移动消息群触达到监控系统开发人员,确认监控系统可用,且能正常触发告警工单。将监控链路分别收敛到监控面板和(接收慢速心跳信息的)移动消息群,即收敛到人。由监控系统开发运营人员多人随机便捷观察系统是否正常运营。在其他实施例中,监控服务M/M1通过向元监控服务MM上报心跳确定自身运营正常。也可以由元监控服务MM对监控服务M/M1进行主动探测,根据监控服务M/M1各自应答,确定监控服务M/M1是否正常运行。
当元监控服务MM检测不到监控服务M或监控服务M1的心跳,或监控服务M/监控服务M1通知元监控服务MM自身发生异常,或检测到监控服务M1心跳上报时间与接收时间的偏差大于预设阈值时,元监控服务MM触发告警,通知监控系统开发人员,其中,告警触达到责任人的方式可以有多种,包括邮件,短信,移动消息,电话等。
元监控服务MM每隔一定时间上报心跳信息到监控面板。监控面板正常收到元监控上报心跳,则面板呈绿色表示监控系统正常工作。若监控面板在指定时间间隔没有收到心跳信息,或收到心跳上报时间与接收时间有较大偏差,则控制面板呈红色表示监控系统异常。控制面板供监控系统开发运营人员主动观察。心跳机制引入相当于主动探测监控系统是否正常工作,避免监控因为自身异常和网络异常发不出告警场景。
在发现监控服务M/监控服务M1/元监控服务MM异常时,执行预先集成的快速恢复方案,例如发现监控服务崩溃,可以让监控服务在一定策略下重新启动。
应该理解的是,虽然上述各实施例中涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各实施例中涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图11所示,提供了一种系统异常监控装置1100,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:告警获取模块1102、待校验监控服务确定模块1104、待校验监控服务检测模块1106以及系统异常信息确定模块1108,其中:
告警获取模块1102,用于获取异常数据告警,确定与异常数据告警对应的异常数据。
待校验监控服务确定模块1104,用于根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务,其中,监控服务为从第一维度对一业务进行监控的第一监控服务或从第二维度对该业务进行监控的第二监控服务,第一监控服务与第二监控服务关联。
待校验监控服务检测模块1106,用于检测待校验监控服务是否上报与异常数据对应的目标告警,得到检测结果;
系统异常信息确定模块1108,用于根据检测结果和异常数据告警,确定系统异常信息。
在其中一个实施例中,第一监控服务用于从第一维度对一业务的待监控数据进行监控,第二监控服务用于从第二维度对该业务的待监控数据中的目标数据进行监控;待校验监控服务确定模块还用于当异常数据告警对应的异常数据为目标数据时,根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务。
在其中一个实施例中,系统异常信息确定模块还用于当检测结果为待校验监控服务未上报目标告警时,确定系统异常信息为待校验监控服务和业务均存在异常;当检测结果为待校验监控服务有上报目标告警时,确定系统异常信息为业务存在异常。
在其中一个实施例中,第一监控服务和第二监控服务为针对同一业务的异步监控。
在其中一个实施例中,第一监控服务的数据检测时间点与第二监控服务的数据检测时间点的时差为预设时长;监控服务的检测时间点早于待校验监控服务的检测时间点;待校验监控服务检测模块还用于根据异常数据告警的接收时间,获取在接收时间之后的预设时长内待校验监控服务上报的延时异常数据告警,预设时长为第一监控服务和第二监控服务的异步时差;当延时异常数据告警不存在与异常数据对应的目标告警时,得到待校验监控服务未上报目标告警的检测结果;当延时异常数据告警存在与异常数据对应的目标告警时,得到待校验监控服务有上报目标告警的检测结果。
在其中一个实施例中,监控服务的检测时间点晚于待校验监控服务的检测时间点;待校验监控服务检测模块获取待校验监控服务上报的历史异常数据告警;当历史异常数据告警中存在与异常数据对应的目标告警时,得到待校验监控服务有上报目标告警的检测结果;当历史异常数据告警中不存在与异常数据对应的目标告警时,得到待校验监控服务未上报目标告警的检测结果。
在其中一个实施例中,告警获取模块还用于通过监控服务,分别获取目标检测时间点以及目标检测时间点的相邻检测时间点对应的业务数据量;根据业务数据量,得到目标检测时间点与相邻检测时间点的业务数据差值;当业务数据差值大于预设变化阈值时,生成异常数据告警。
在其中一个实施例中,系统异常监控装置1100还包括心跳信息处理模块,用于当未收到第一监控服务或第二监控服务上报的心跳信息或心跳信息的上报时间与接收时间的时间间隔大于预设允许偏差时,生成并上报监控服务异常信息。
上述系统异常监控装置,通过第一监控服务和第二监控服务从不同维度对业务进行监控,获取异常数据告警,确定与异常数据告警对应的异常数据,根据上报异常数据告警的监控服务,确定与监控服务关联的待校验监控服务,并根据待校验监控服务是否上报与异常数据对应的目标告警,实现对待校验监控服务的检测,根据检测结果和异常数据告警,确定系统异常信息。相较于传统的单一维度的数据监控,通过对业务数据进行多维度的监控,以及关联的第一监控服务和第二监控服务,从不同维度的异常告警监测,校验是否存在告警上报异常,能够提高监控系统自身可用性,从而得到更为准确的监控结果。
关于系统异常监控装置的具体限定可以参见上文中对于系统异常监控方法的限定,在此不再赘述。上述系统异常监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储系统异常监控数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种系统异常监控方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种系统异常监控方法,其特征在于,所述方法包括:
获取异常数据告警,确定与所述异常数据告警对应的异常数据;
根据上报所述异常数据告警的监控服务,确定与所述监控服务关联的待校验监控服务,其中,所述监控服务为从第一维度对一业务进行监控的第一监控服务或从第二维度对该业务进行监控的第二监控服务,所述第一监控服务与所述第二监控服务关联;所述第一监控服务和所述第二监控服务为针对同一业务的异步监控;
检测所述待校验监控服务是否上报与所述异常数据对应的目标告警,得到检测结果;
根据所述检测结果和所述异常数据告警,确定系统异常信息。
2.根据权利要求1所述的方法,其特征在于,所述第一监控服务用于从第一维度对一业务的待监控数据进行监控,所述第二监控服务用于从第二维度对该业务的待监控数据中的目标数据进行监控;
所述根据上报所述异常数据告警的监控服务,确定与所述监控服务关联的待校验监控服务包括:
当所述异常数据告警对应的异常数据为所述目标数据时,根据上报所述异常数据告警的监控服务,确定与所述监控服务关联的待校验监控服务。
3.根据权利要求1所述的方法,其特征在于,所述获取异常数据告警包括:
通过所述监控服务,分别获取目标检测时间点以及所述目标检测时间点的相邻检测时间点对应的业务数据量;
根据所述业务数据量,得到所述目标检测时间点与所述相邻检测时间点的业务数据差值;
当所述业务数据差值大于预设变化阈值时,生成异常数据告警。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述检测结果和所述异常数据告警,确定系统异常信息包括:
当所述检测结果为所述待校验监控服务未上报所述目标告警时,确定所述系统异常信息为所述待校验监控服务和所述业务均存在异常;
当所述检测结果为所述待校验监控服务有上报所述目标告警时,确定所述系统异常信息为所述业务存在异常。
5.根据权利要求1所述的方法,其特征在于,所述监控服务的检测时间点早于所述待校验监控服务的检测时间点;
所述检测所述待校验监控服务是否上报与所述异常数据对应的目标告警,得到检测结果包括:
根据所述异常数据告警的接收时间,获取在所述接收时间之后的预设时长内所述待校验监控服务上报的延时异常数据告警,所述预设时长为所述第一监控服务和所述第二监控服务的异步时差;
当所述延时异常数据告警不存在与所述异常数据对应的目标告警时,得到所述待校验监控服务未上报所述目标告警的检测结果;
当所述延时异常数据告警存在与所述异常数据对应的目标告警时,得到所述待校验监控服务有上报所述目标告警的检测结果。
6.根据权利要求1所述的方法,其特征在于,所述监控服务的检测时间点晚于所述待校验监控服务的检测时间点;
所述检测所述待校验监控服务是否上报与所述异常数据对应的目标告警,得到检测结果包括:
获取所述待校验监控服务上报的历史异常数据告警;
当所述历史异常数据告警中存在与所述异常数据对应的目标告警时,得到所述待校验监控服务有上报目标告警的检测结果;
当所述历史异常数据告警中不存在与所述异常数据对应的目标告警时,得到所述待校验监控服务未上报目标告警的检测结果。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当未收到所述第一监控服务或所述第二监控服务上报的心跳信息或心跳信息的上报时间与接收时间的时间间隔大于预设允许偏差时,生成并上报监控服务异常信息。
8.一种系统异常监控装置,其特征在于,所述装置包括:
告警获取模块,用于获取异常数据告警,确定与所述异常数据告警对应的异常数据;
待校验监控服务确定模块,用于根据上报所述异常数据告警的监控服务,确定与所述监控服务关联的待校验监控服务,其中,所述监控服务为从第一维度对一业务进行监控的第一监控服务或从第二维度对该业务进行监控的第二监控服务,所述第一监控服务与所述第二监控服务关联;所述第一监控服务和所述第二监控服务为针对同一业务的异步监控;
待校验监控服务检测模块,用于检测所述待校验监控服务是否上报与所述异常数据对应的目标告警,得到检测结果;
系统异常信息确定模块,用于根据所述检测结果和所述异常数据告警,确定系统异常信息。
9.根据权利要求8所述的装置,其特征在于,所述第一监控服务用于从第一维度对一业务的待监控数据进行监控,所述第二监控服务用于从第二维度对该业务的待监控数据中的目标数据进行监控;
所述待校验监控服务确定模块,还用于当所述异常数据告警对应的异常数据为所述目标数据时,根据上报所述异常数据告警的监控服务,确定与所述监控服务关联的待校验监控服务。
10.根据权利要求8所述的装置,其特征在于,所述告警获取模块,还用于通过所述监控服务,分别获取目标检测时间点以及所述目标检测时间点的相邻检测时间点对应的业务数据量;根据所述业务数据量,得到所述目标检测时间点与所述相邻检测时间点的业务数据差值;当所述业务数据差值大于预设变化阈值时,生成异常数据告警。
11.根据权利要求8-10中任一项所述的装置,其特征在于,所述系统异常信息确定模块,还用于当所述检测结果为所述待校验监控服务未上报所述目标告警时,确定所述系统异常信息为所述待校验监控服务和所述业务均存在异常;当所述检测结果为所述待校验监控服务有上报所述目标告警时,确定所述系统异常信息为所述业务存在异常。
12.根据权利要求8所述的装置,其特征在于,所述监控服务的检测时间点早于所述待校验监控服务的检测时间点;
所述待校验监控服务检测模块,还用于根据所述异常数据告警的接收时间,获取在所述接收时间之后的预设时长内所述待校验监控服务上报的延时异常数据告警,所述预设时长为所述第一监控服务和所述第二监控服务的异步时差;当所述延时异常数据告警不存在与所述异常数据对应的目标告警时,得到所述待校验监控服务未上报所述目标告警的检测结果;当所述延时异常数据告警存在与所述异常数据对应的目标告警时,得到所述待校验监控服务有上报所述目标告警的检测结果。
13.根据权利要求8所述的装置,其特征在于,所述监控服务的检测时间点晚于所述待校验监控服务的检测时间点;
所述待校验监控服务检测模块,还用于获取所述待校验监控服务上报的历史异常数据告警;当所述历史异常数据告警中存在与所述异常数据对应的目标告警时,得到所述待校验监控服务有上报目标告警的检测结果;当所述历史异常数据告警中不存在与所述异常数据对应的目标告警时,得到所述待校验监控服务未上报目标告警的检测结果。
14.根据权利要求8所述的装置,其特征在于,所述系统异常监控装置还包括心跳信息处理模块,用于当未收到所述第一监控服务或所述第二监控服务上报的心跳信息或心跳信息的上报时间与接收时间的时间间隔大于预设允许偏差时,生成并上报监控服务异常信息。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
16.一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
CN202011414563.7A 2020-12-07 2020-12-07 系统异常监控方法、装置和存储介质 Active CN114610560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011414563.7A CN114610560B (zh) 2020-12-07 2020-12-07 系统异常监控方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011414563.7A CN114610560B (zh) 2020-12-07 2020-12-07 系统异常监控方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN114610560A CN114610560A (zh) 2022-06-10
CN114610560B true CN114610560B (zh) 2024-04-02

Family

ID=81856326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011414563.7A Active CN114610560B (zh) 2020-12-07 2020-12-07 系统异常监控方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN114610560B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025153A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
JP2017208037A (ja) * 2016-05-20 2017-11-24 Necフィールディング株式会社 監視装置、情報監視システム、監視装置の制御方法、及びプログラム
CN107592236A (zh) * 2016-07-07 2018-01-16 北京奇虎科技有限公司 一种推广信息相关的业务数据的监控方法和装置
WO2018059224A1 (zh) * 2016-09-30 2018-04-05 中兴通讯股份有限公司 一种物联网监听方法、装置及系统和计算机存储介质
CN109412870A (zh) * 2018-12-10 2019-03-01 网宿科技股份有限公司 告警监控方法及平台、服务器、存储介质
CN110069382A (zh) * 2019-04-03 2019-07-30 北京奇安信科技有限公司 软件监控方法、服务器、终端设备、计算机设备及介质
CN110138603A (zh) * 2019-04-28 2019-08-16 深兰科技(上海)有限公司 一种监控物联网设备的方法及装置
US10558541B1 (en) * 2017-09-22 2020-02-11 Equinix, Inc. Agent-based monitoring of network resources
CN111814999A (zh) * 2020-07-08 2020-10-23 上海燕汐软件信息科技有限公司 一种故障工单生成方法、装置、设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108923952B (zh) * 2018-05-31 2021-11-30 北京百度网讯科技有限公司 基于服务监控指标的故障诊断方法、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025153A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
JP2017208037A (ja) * 2016-05-20 2017-11-24 Necフィールディング株式会社 監視装置、情報監視システム、監視装置の制御方法、及びプログラム
CN107592236A (zh) * 2016-07-07 2018-01-16 北京奇虎科技有限公司 一种推广信息相关的业务数据的监控方法和装置
WO2018059224A1 (zh) * 2016-09-30 2018-04-05 中兴通讯股份有限公司 一种物联网监听方法、装置及系统和计算机存储介质
US10558541B1 (en) * 2017-09-22 2020-02-11 Equinix, Inc. Agent-based monitoring of network resources
CN109412870A (zh) * 2018-12-10 2019-03-01 网宿科技股份有限公司 告警监控方法及平台、服务器、存储介质
CN110069382A (zh) * 2019-04-03 2019-07-30 北京奇安信科技有限公司 软件监控方法、服务器、终端设备、计算机设备及介质
CN110138603A (zh) * 2019-04-28 2019-08-16 深兰科技(上海)有限公司 一种监控物联网设备的方法及装置
CN111814999A (zh) * 2020-07-08 2020-10-23 上海燕汐软件信息科技有限公司 一种故障工单生成方法、装置、设备

Also Published As

Publication number Publication date
CN114610560A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
CN109688188A (zh) 监控告警方法、装置、设备及计算机可读存储介质
US8352789B2 (en) Operation management apparatus and method thereof
US20210288897A1 (en) Mitigating failure in request handling
CN111092786A (zh) 网络设备安全认证服务可靠性增强系统
CN112256593B (zh) 一种程序处理方法、装置、计算机设备和可读存储介质
CN112286771A (zh) 一种针对全域资源监控的告警方法
CN110727533A (zh) 一种告警的方法、装置、设备和介质
CN110674149B (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN110618890A (zh) 故障处理方法、装置、电子设备及计算机可读存储介质
CN112395156A (zh) 故障的告警方法和装置、存储介质和电子设备
US20150074808A1 (en) Rootkit Detection in a Computer Network
CN112671767A (zh) 一种基于告警数据分析的安全事件预警方法及装置
CN112804234A (zh) 一种应用于电力终端的嵌入式容侵容错装置及处理方法
CN110489260A (zh) 故障识别方法、装置及bmc
CN106982141A (zh) Weblogic实例监控方法及装置
CN114610560B (zh) 系统异常监控方法、装置和存储介质
JP2017211806A (ja) 通信の監視方法、セキュリティ管理システム及びプログラム
CN103368754B (zh) 一种检测业务故障的方法、装置和系统及设备
CN112181780A (zh) 容器化平台核心组件的检测及告警方法、装置及设备
CN111835566A (zh) 一种系统故障管理方法、装置及系统
CN111475556A (zh) 一种数据采集方法、设备、服务器及可读存储介质
JP2003345629A (ja) システム監視装置及びそれに用いるシステム監視方法並びにそのプログラム
CN114024867B (zh) 网络异常检测方法及装置
CN104852810A (zh) 一种业务平台异常的确定方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant