CN112799910A - 层次化监控方法及装置 - Google Patents
层次化监控方法及装置 Download PDFInfo
- Publication number
- CN112799910A CN112799910A CN202110110209.3A CN202110110209A CN112799910A CN 112799910 A CN112799910 A CN 112799910A CN 202110110209 A CN202110110209 A CN 202110110209A CN 112799910 A CN112799910 A CN 112799910A
- Authority
- CN
- China
- Prior art keywords
- anomaly
- monitoring
- tracing
- abnormal
- hierarchical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 343
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000001514 detection method Methods 0.000 claims abstract description 64
- 238000012806 monitoring device Methods 0.000 claims abstract description 12
- 230000002159 abnormal effect Effects 0.000 claims description 163
- 238000004590 computer program Methods 0.000 claims description 15
- 230000005856 abnormality Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 238000013024 troubleshooting Methods 0.000 description 9
- 230000036541 health Effects 0.000 description 5
- 230000005587 bubbling Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011835 investigation Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例提供一种层次化监控方法及装置,可用于云计算技术领域,方法包括:对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测,若监测到存在异常监控指标,则获取所述异常监控指标对应的异常溯源策略;基于所述异常溯源策略,在所述层次化软件系统中的至少一个层次中进行异常溯源检测以确定所述异常监控指标的异常源头。本申请能够实现对层次化软件系统的主动异常监控,且能够有效提高层次化软件系统的异常源头获取准确性,进而能够有效提高根据该异常源头对层次化软件系统进行异常排查的准确性及效率。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及云计算技术领域,具体涉及层次化监控方法及装置。
背景技术
软件系统(Software Systems)是指由系统软件、支撑软件和应用软件组成的计算机软件系统,它是计算机系统中由软件组成的部分。而层次化软件系统是解决软件复杂性的有效手段,也在软件开发中发挥了重要作用。例如基于云技术的层次化软件系统,其容器部署从上到下可以包含有应用层、容器层、服务器层及基础设施层等多个层次。为了保证层次化软件系统的运转可靠性,需要对层次化软件系统进行运转状态监控。但由于层次化软件系统中各层次的差异设置,无法将传统平面化的应用监控方式应用在层次化软件系统中。
目前,对层次化软件系统进行差异化监控的方式通常为:为各个层次分别设置差异化指标,并对各层次分别对应的指标进行监控。该种方式虽然能够实现对层次化软件系统进行差异化监控,但由于其层次与指标之间的单一绑定关系,会导致监控结果仅能够被动地对应到与异常指标绑定的层次中,使得其指向性单一;而由于层次化软件系统中的各层次之间是存在关联性的,且存在碎片化和重合度较高的数据,且一台物理设备在某一个时刻可能会部署多种不同的应用,且随时间会动态调整;因此,在实际运行过程中,往往在层次化软件系统出现问题的点与引发问题的点并不相同,这也使得现有的差异化监控方法存在无法准确获知异常出现源头及获知异常的方式过于被动等问题,进而使得排查异常的过程变得更加困难。
发明内容
针对现有技术中的问题,本申请提供一种层次化监控方法及装置,能够实现对层次化软件系统的主动异常监控,且能够有效提高层次化软件系统的异常源头获取准确性,进而能够有效提高根据该异常源头对层次化软件系统进行异常排查的准确性及效率。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种层次化监控方法,包括:
对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测,若监测到存在异常监控指标,则获取所述异常监控指标对应的异常溯源策略;
基于所述异常溯源策略,在所述层次化软件系统中的至少一个层次中进行异常溯源检测以确定所述异常监控指标的异常源头。
进一步地,还包括:
设置各监控指标的第一异常类型,所述监控指标与所述第一异常类型之间为一对一或多对一的关系;
针对各个所述第一异常类型分别设置对应的异常溯源策略;
相对应的,所述获取所述异常监控指标对应的异常溯源策略,包括:
确定所述异常监控指标对应的第一异常类型;
根据所述第一异常类型获取所述异常监控指标对应的异常溯源策略。
进一步地,所述异常溯源策略中包含有溯源层次和异常溯源检测方式;
其中,所述溯源层次包括:所述异常监控指标所在层次和/或其他层次;
所述异常溯源检测方式包括冒泡排序方式和遍历方式中的至少一种。
进一步地,所述基于所述异常溯源策略,在所述层次化软件系统中的至少一个层次中进行异常溯源检测以确定所述异常监控指标的异常源头,包括:
基于所述异常监控指标对应的异常溯源策略中的所述异常溯源检测方式,在该异常溯源策略指定的至少一个所述溯源层次中进行异常溯源检测;
根据异常溯源检测结果确定所述异常监控指标的异常源头。
进一步地,所述根据异常溯源检测结果确定所述异常监控指标的异常源头,包括:
基于预设的异常匹配规则自所述异常溯源检测结果查找所述异常监控指标的异常源头。
进一步地,还包括:
获取所述异常源头所属的第二异常类型和属性信息;
基于所述异常源头所属的第二异常类型确定对应的信息接收端及信息输出方式;
以所述信息输出方式向所述信息接收端发送所述异常源头的属性信息。
第二方面,本申请提供一种层次化监控装置,包括:
异常监测模块,用于对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测,若监测到存在异常监控指标,则获取所述异常监控指标对应的异常溯源策略;
异常溯源模块,用于基于所述异常溯源策略,在所述层次化软件系统中的至少一个层次中进行异常溯源检测以确定所述异常监控指标的异常源头。
进一步地,还包括:
第一异常类型设置模块,用于设置各监控指标的第一异常类型,所述监控指标与所述第一异常类型之间为一对一或多对一的关系;
策略设置模块,用于针对各个所述第一异常类型分别设置对应的异常溯源策略;
相对应的,所述异常溯源模块用于执行下述内容:
确定所述异常监控指标对应的第一异常类型;
根据所述第一异常类型获取所述异常监控指标对应的异常溯源策略。第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述层次化监控方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述层次化监控方法。
由上述技术方案可知,本申请提供的一种层次化监控方法及装置,方法通过对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测,若监测到存在异常监控指标,则获取所述异常监控指标对应的异常溯源策略;基于所述异常溯源策略,在所述层次化软件系统中的至少一个层次中进行异常溯源检测以确定所述异常监控指标的异常源头,通过在监测到异常指标后获取其对应的目标溯源策略,并基于该目标溯源策略在所述层次化软件系统中进行主动异常溯源检测,能够实现对层次化软件系统的主动异常监控,且能够有效提高层次化软件系统的异常源头获取准确性,进而能够有效提高根据该异常源头对层次化软件系统进行异常排查的准确性及效率,进而能够有效提高层次化软件系统的运行可靠性,且能够有效降低监控层次化软件系统监控所需的人工成本及时间成本,进而能够提高异常排查人员的用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的层次化监控方法的第一种流程示意图。
图2是本申请实施例中的层次化监控方法的第二种流程示意图。
图3是本申请实施例中的层次化监控方法中步骤100的流程示意图。
图4是本申请实施例中的云原生体系的结构示意图。
图5是本申请实施例中的层次化监控方法中步骤200的具体流程示意图。
图6是本申请实施例中的层次化监控方法的第三种流程示意图。
图7是本申请实施例中的层次化监控装置的第一种结构示意图。
图8是本申请实施例中的层次化监控装置的第二种结构示意图。
图9是本申请应用实例中的云原生体系的层次化监控系统的结构示意图。
图10是本申请应用实例中的云原生体系的层次化监控系统中指标采集装置的结构示意图。
图11是本申请应用实例中的云原生体系的层次化监控系统中事件上报装置的结构示意图。
图12是本申请应用实例中的云原生体系的层次化监控系统中故障分析装置的结构示意图。
图13是本申请应用实例中的云原生体系的层次化监控系统中通知装置的结构示意图。
图14是本申请应用实例中的云原生体系的层次化监控方法的流程示意图。
图15是本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请公开的层次化监控方法和装置可用于云计算技术领域,也可用于除云计算之外的任意领域,本申请公开的层次化监控方法和装置的应用领域不做限定。
针对现有的差异化监控方法存在无法准确获知异常出现源头及获知异常的方式过于被动等问题,进而使得排查异常的过程变得更加困难的问题,亟需提供一种新的方案,提升监控的效率、降低人工排查的成本。如何合理利用监控体系,利用监控到的异常,主动的分析并排查问题。
基于此,本申请实施例分别提供一种层次化监控方法、层次化监控装置、电子设备及计算机可读存储介质,通过对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测,若监测到存在异常监控指标,则获取所述异常监控指标对应的异常溯源策略;基于所述异常溯源策略,在所述层次化软件系统中的至少一个层次中进行异常溯源检测以确定所述异常监控指标的异常源头,通过在监测到异常指标后获取其对应的目标溯源策略,并基于该目标溯源策略在所述层次化软件系统中进行主动异常溯源检测,能够实现对层次化软件系统的主动异常监控,且能够有效提高层次化软件系统的异常源头获取准确性,进而能够有效提高根据该异常源头对层次化软件系统进行异常排查的准确性及效率,进而能够有效提高层次化软件系统的运行可靠性,且能够有效降低监控层次化软件系统监控所需的人工成本及时间成本,进而能够提高异常排查人员的用户体验。
在本申请的一种实际应用举例中,所述层次化监控方式可以应用在各类层次化软件系统中,尤其适用于部署在云基础设施上的云原生体系,其中,该云原生体系可以指一个灵活的工程团队遵循敏捷的研发原则,使用高度自动化的研发工具,开发专门基于并部署在云基础设施上的应用,以满足快速变化的客户需求。这些应用采用自动化的,可扩展的,和高可用的架构。这个工程团队通过高效的云计算现网的运维来提供这一应用服务,并且根据线上反馈对服务进行不断地改进。所述云原生体系也可以被称之为云原生系统、云原生架构或云原生软件等。
具体通过下述各个实施例及应用实例分别进行详细说明。
为了解决现有的差异化监控方法存在无法准确获知异常出现源头及获知异常的方式过于被动等问题,本申请提供一种层次化监控方法的实施例,参见图1,所述层次化监控方法具体包含有如下内容:
步骤100:对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测,若监测到存在异常监控指标,则获取所述异常监控指标对应的异常溯源策略。
在步骤100中,所述监控指标可以为在原始监控系统直接获取以进行复用,也可以根据所要监控的内容或对象进行重新设置或更新,本申请对此不作限定。可以理解的是,本申请的一个或多个实施例中提及的原始监控系统可以为自层次化软件系统的原有监控系统中选用的任意数量的监控系统。
在各项预设监控指标的一种举例中,监控指标可以选取服务平均响应时间、CPU平均使用率、内存平均使用率、GC频率及健康检查频率等指标。
另外,对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测的具体方式可以为:预先设置各项所述监控指标各自对应的异常阈值,并实施比较各项所述监控指标分别与各自对应的异常阈值,若存在监控指标超出或低于其对应的异常阈值,则将该监控指标确定为当前的异常监控指标。
在异常监控的一种举例中,若所述监控指标为A1,则其对应的异常阈值可以为B1,对该监控指标进行异常监控的具体方式为:若A1的值超过异常阈值B1,则将该A1判断为异常监控指标。例如,A1可以为CPU平均使用率指标,应用可以自行开启CPU平均使用率指标探测,并设置异常阈值B1如:85%。当CPU使用频繁冲高以至CPU平均使用率指标的数值超过85%时,触发CPU平均使用率指标对应的异常场景。
在异常监控的另一种举例中,若所述监控指标为A2,则其对应的异常阈值可以为B2,对该监控指标进行异常监控的具体方式为:若A2的值低于B2,则将该A2判断为异常监控指标。例如,A2可以为健康检查频率指标,健康检查频率用于标识应用可达性,一般通过容器健康检查,F5或者SLB探活调用应用服务。通常设置异常阈值B2为3次/分钟,当监控发现健康检查频率指标的数值低于3次/分钟时,触发健康检查频率指标对应的异常场景。
以及,所述异常监控指标对应的异常溯源策略是指预先设置并存储的用于指示异常监控指标的后续处理方式的策略。
步骤200:基于所述异常溯源策略,在所述层次化软件系统中的至少一个层次中进行异常溯源检测以确定所述异常监控指标的异常源头。
可以理解的是,本申请的一个或多个实施例中提及的至少一个层次可以为所述异常监控指标所在层次和/或其他层次,其中,其他层次是指所述各个层次中除了所述异常指标所在层次之外的任意层次,在实际应用中,通常指所述异常指标的上一层次或下一层次这类相邻层次。
同时,在申请的一个或多个实施例中,异常源头是指异常监控指标之所以出现异常的溯源原因,在实际应用场景下,该异常源头可以被称之为异常监控指标的故障源头,进而能够根据该故障源头对层次化软件系统进行及时且有针对性的维护,以保证层次化软件系统的可靠运行。
从上述描述可知,本申请实施例提供的云原生体系的层次化监控方法,通过在监测到异常指标后获取其对应的目标溯源策略,并基于该目标溯源策略在所述层次化软件系统中进行主动异常溯源检测,能够实现对层次化软件系统的主动异常监控,且能够有效提高层次化软件系统的异常源头获取准确性,进而能够有效提高根据该异常源头对层次化软件系统进行异常排查的准确性及效率。
为了进一步提高层次化监控的实时性及主动性,在本申请提供的层次化监控方法的一个实施例中,参见图2,以在步骤100之前执行为例,所述层次化监控方法中还具体包含有如下内容:
步骤010:设置各监控指标的第一异常类型,所述监控指标与所述第一异常类型之间为一对一或多对一的关系。
在步骤010中,所述第一异常类型是指监控指标的异常类型,用于区分于本申请的其他实施例中提及的第二异常类型。在所述第一异常类型的举例中,所述第一异常类型可以包含有服务响应时间超时、数据库连接数异常、线程池连接数异常及GC频率异常等类型。
步骤020:针对各个所述第一异常类型分别设置对应的异常溯源策略。
相对应的,参见图3,本申请提供的层次化监控方法的一个实施例中,所述步骤100的获取所述异常监控指标对应的异常溯源策略的具体实现方式如下:
步骤110:确定所述异常监控指标对应的第一异常类型。
步骤120:根据所述第一异常类型获取所述异常监控指标对应的异常溯源策略。
从上述描述可知,本申请实施例提供的云原生体系的层次化监控方法,针对监控指标所属的不同异常类型,设置不同的异常溯源策略,能够有效提高异常溯源策略的应用针对性及可靠性,进而能够有效提高异常指标的异常源头检测的效率及准确性。
为了直接根据该异常溯源策略进行准确地异常溯源,在本申请提供的层次化监控方法的一个实施例中,所述层次化监控方法中的所述异常溯源策略中包含有溯源层次和异常溯源检测方式;
其中,所述溯源层次包括:所述异常监控指标所在层次和/或其他层次;
所述异常溯源检测方式包括冒泡排序方式和遍历方式中的至少一种。
层次化软件系统是层次化的,每一层都有对应的监控,监控的指标存在相关性,将相关性的策略应用到监控中,可以在监控同时快速定位问题。参见图4,以层次化软件系统为云原生体系为例进行说明,所述云原生体系的应用容器化部署从上到下依次为应用、中间件、容器、POD、虚拟机、宿主机。每一层都有对应的监控。
可以理解的是,所述POD(Plain old data structure)是C++语言的标准中定义的一类数据结构,POD适用于需要明确的数据底层操作的系统中。POD通常被用在系统的边界处,即指不同系统之间只能以底层数据的形式进行交互,系统的高层逻辑不能互相兼容。比如当对象的字段值是从外部数据中构建时,系统还没有办法对对象进行语义检查和解释,这时就适用POD来存储数据。
从上述描述可知,本申请实施例提供的云原生体系的层次化监控方法,通过异常溯源策略的内容限定,明确了溯源层次和异常溯源检测方式,使得能够直接根据该异常溯源策略进行准确地异常溯源,无需人工设定溯源层次和异常溯源检测方式,进而能够有效提高异常溯源的智能化程度及自动化程度。
为了更进一步提高异常溯源的全面性及准确性,在本申请提供的层次化监控方法的一个实施例中,参见图5,所述层次化监控方法中的步骤200具体包含有如下内容:
步骤210:基于所述异常监控指标对应的异常溯源策略中的所述异常溯源检测方式,在该异常溯源策略指定的至少一个所述溯源层次中进行异常溯源检测;
步骤220:根据异常溯源检测结果确定所述异常监控指标的异常源头。以层次化软件系统为云原生体系为例进行说明,当应用层发生异常时,如:网络异常,中间件监控首先捕获这个异常,向上冒泡探测上层网络情况,若上层正常,则由上层遍历下层网络情况,看是否有大量网络请求导致相互影响,如此分析定位问题。这是指标单向关联,属于比较简单的情况。若中间件捕获线程池异常,可能要关联CPU、磁盘、网络多项指标。随着监控发展,指标监控的维度越来越细,具体指标关联性可以通过部署策略实现这种机制。
在另一举例中,当数据库连接数发生飙高异常时,向下遍历相关明细指标,如:探测数据库连接异常类型、数据库连接申请频率、数据库连接周期TOP10程序、慢SQL查询等,若发现以上指标皆正常,需向上冒泡探测CPU使用率、文件打开数、网络延时是否存在异常升高的情况。
从上述描述可知,本申请实施例提供的云原生体系的层次化监控方法,能够实现在所述异常指标所在层次和/或其他层次进行异常溯源检测,进而能够更进一步提高异常溯源的全面性及准确性。
为了更进一步提高异常溯源的全面性及准确性,在本申请提供的层次化监控方法的一个实施例中,所述层次化监控方法中的步骤220具体包含有如下内容:
步骤221:基于预设的异常匹配规则自所述异常溯源检测结果查找所述异常监控指标的异常源头。
在步骤221中,异常匹配规则是指用于根据异常溯源检测结果确定当前异常监控指标的异常源头,在一种异常匹配规则的举例中,若当前异常监控指标为A1,异常溯源检测结果显示C1,则确定A1的异常源头为D1。
以上面的数据库连接数飙高为例,监控指标1分钟内数据库非空闲连接数超过85%,探测数据库连接异常类型、数据库连接申请频率、数据库连接周期TOP10程序、慢SQL查询等,若发现数据库连接异常类型为大量SLEEP连接未正常释放。此时,问题以完成定位。
从上述描述可知,本申请实施例提供的云原生体系的层次化监控方法,通过异常匹配规则的应用,能够进一步提高异常指标的异常源头的获取效率及自动化程度。
为了更进一步提高异常溯源的全面性及准确性,在本申请提供的层次化监控方法的一个实施例中,参见图6,以在步骤200之后执行为例,所述层次化监控方法还具体包含有如下内容:
步骤300:获取所述异常源头所属的第二异常类型和属性信息。
在步骤300中,所述异常源头的举例可以包含有内存、网络和磁盘等,所述第二异常类型是指述异常源头的异常类型,在所述第二异常类型的一种举例中,所述第二异常类型可以为磁盘IO异常、网络丢包率异常、内存SWAP使用超阈值及CPU使用率超阈值等类型。
步骤400:基于所述异常源头所属的第二异常类型确定对应的信息接收端及信息输出方式。
步骤500:以所述信息输出方式向所述信息接收端发送所述异常源头的属性信息。
在步骤400中,所述信息接收端可以为客户端设备,执行所述层次化监控方法的设备可以为服务器。进行层次化监控的部分也可以在所述层次化监控装置所在的服务器节点执行,也可以所有的操作都在客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器,用于进行层次化监控的具体处理。
可以理解的是,客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。通信单元还可以接收服务器返回的预测结果。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间系统的服务器,例如与任务调度中心服务器有通信链接的第三方服务器系统的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
上述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
从上述描述可知,本申请实施例提供的云原生体系的层次化监控方法,能够提高异常指标的异常源头的维护效率以进一步保障层次化软件系统的运行可靠性。
从软件层面来说,为了解决现有的针对云原生体系进行监控的方式存在监控效率低、人工排查成本高以及被动查询造成的异常定位准确性差等问题,本申请提供一种用于执行所述层次化监控方法中全部或部分内容的层次化监控装置的实施例,参见图7,所述层次化监控装置具体包含有如下内容:
异常检测模块10,用于对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测,若监测到存在异常监控指标,则获取所述异常监控指标对应的异常溯源策略。
在异常检测模块10中,所述监控指标可以为在原始监控系统直接获取以进行复用,也可以根据所要监控的内容或对象进行重新设置或更新,本申请对此不作限定。可以理解的是,本申请的一个或多个实施例中提及的原始监控系统可以为自层次化软件系统的原有监控系统中选用的任意数量的监控系统。
另外,对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测的具体方式可以为:预先设置各项所述监控指标各自对应的异常阈值,并实施比较各项所述监控指标分别与各自对应的异常阈值,若存在监控指标超出或低于其对应的异常阈值,则将该监控指标确定为当前的异常监控指标。
以及,所述异常监控指标对应的异常溯源策略是指预先设置并存储的用于指示异常监控指标的后续处理方式的策略。
异常溯源模块20,用于基于所述异常溯源策略,在所述层次化软件系统中的至少一个层次中进行异常溯源检测以确定所述异常监控指标的异常源头。
可以理解的是,本申请的一个或多个实施例中提及的至少一个层次可以为所述异常监控指标所在层次和/或其他层次,其中,其他层次是指所述各个层次中除了所述异常指标所在层次之外的任意层次,在实际应用中,通常指所述异常指标的上一层次或下一层次这类相邻层次。
同时,在申请的一个或多个实施例中,异常源头是指异常监控指标之所以出现异常的溯源原因,在实际应用场景下,该异常源头可以被称之为异常监控指标的故障源头,进而能够根据该故障源头对层次化软件系统进行及时且有针对性的维护,以保证层次化软件系统的可靠运行。
本申请提供的层次化监控装置的实施例具体可以用于执行上述实施例中的层次化监控方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
从上述描述可知,本申请实施例提供的层次化监控装置,通过在监测到异常指标后获取其对应的目标溯源策略,并基于该目标溯源策略在所述层次化软件系统中进行主动异常溯源检测,能够实现对层次化软件系统的主动异常监控,且能够有效提高层次化软件系统的异常源头获取准确性,进而能够有效提高根据该异常源头对层次化软件系统进行异常排查的准确性及效率。
为了进一步提高层次化监控的实时性及主动性,在本申请提供的层次化监控装置的一个实施例中,参见图8,以在步骤100之前执行为例,所述层次化监控装置中还具体包含有如下内容:
第一异常类型设置模块01,用于设置各监控指标的第一异常类型,所述监控指标与所述第一异常类型之间为一对一或多对一的关系;
策略设置模块02,用于针对各个所述第一异常类型分别设置对应的异常溯源策略;
相对应的,所述异常溯源模块20用于执行下述内容:
步骤110:确定所述异常监控指标对应的第一异常类型。
步骤120:根据所述第一异常类型获取所述异常监控指标对应的异常溯源策略。
从上述描述可知,本申请实施例提供的云原生体系的层次化监控装置,针对监控指标所属的不同异常类型,设置不同的异常溯源策略,能够有效提高异常溯源策略的应用针对性及可靠性,进而能够有效提高异常指标的异常源头检测的效率及准确性。
为了直接根据该异常溯源策略进行准确地异常溯源,在本申请提供的层次化监控装置的一个实施例中,所述层次化监控装置中的所述异常溯源策略中包含有溯源层次和异常溯源检测方式;
其中,所述溯源层次包括:所述异常监控指标所在层次和/或其他层次;
所述异常溯源检测方式包括冒泡排序方式和遍历方式中的至少一种。
层次化软件系统是层次化的,每一层都有对应的监控,监控的指标存在相关性,将相关性的策略应用到监控中,可以在监控同时快速定位问题。以层次化软件系统为云原生体系为例进行说明,所述云原生体系的应用容器化部署从上到下依次为应用、中间件、容器、POD、虚拟机、宿主机。每一层都有对应的监控。
可以理解的是,所述POD(Plain old data structure)是C++语言的标准中定义的一类数据结构,POD适用于需要明确的数据底层操作的系统中。POD通常被用在系统的边界处,即指不同系统之间只能以底层数据的形式进行交互,系统的高层逻辑不能互相兼容。比如当对象的字段值是从外部数据中构建时,系统还没有办法对对象进行语义检查和解释,这时就适用POD来存储数据。
从上述描述可知,本申请实施例提供的云原生体系的层次化监控装置,通过异常溯源策略的内容限定,明确了溯源层次和异常溯源检测方式,使得能够直接根据该异常溯源策略进行准确地异常溯源,无需人工设定溯源层次和异常溯源检测方式,进而能够有效提高异常溯源的智能化程度及自动化程度。
为了更进一步提高异常溯源的全面性及准确性,在本申请提供的层次化监控装置的一个实施例中,所述层次化监控装置中的异常溯源模块20具体用于执行下述内容:
步骤210:基于所述异常监控指标对应的异常溯源策略中的所述异常溯源检测方式,在该异常溯源策略指定的至少一个所述溯源层次中进行异常溯源检测;
步骤220:根据异常溯源检测结果确定所述异常监控指标的异常源头。以层次化软件系统为云原生体系为例进行说明,当应用层发生异常时,如:网络异常,中间件监控首先捕获这个异常,向上冒泡探测上层网络情况,若上层正常,则由上层遍历下层网络情况,看是否有大量网络请求导致相互影响,如此分析定位问题。这是指标单向关联,属于比较简单的情况。若中间件捕获线程池异常,可能要关联CPU、磁盘、网络多项指标。随着监控发展,指标监控的维度越来越细,具体指标关联性可以通过部署策略实现这种机制。
从上述描述可知,本申请实施例提供的云原生体系的层次化监控装置,能够实现在所述异常指标所在层次和/或其他层次进行异常溯源检测,进而能够更进一步提高异常溯源的全面性及准确性。
为了更进一步提高异常溯源的全面性及准确性,在本申请提供的层次化监控装置的一个实施例中,所述层次化监控装置中的异常溯源模块20还具体用于执行下述内容:
步骤221:基于预设的异常匹配规则自所述异常溯源检测结果查找所述异常监控指标的异常源头。
在步骤221中,异常匹配规则是指用于根据异常溯源检测结果确定当前异常监控指标的异常源头。
从上述描述可知,本申请实施例提供的云原生体系的层次化监控装置,通过异常匹配规则的应用,能够进一步提高异常指标的异常源头的获取效率及自动化程度。
为了更进一步提高异常溯源的全面性及准确性,在本申请提供的层次化监控装置的一个实施例中,以在步骤200之后执行为例,所述层次化监控装置还具体用于执行下述内容:
步骤210:获取所述异常源头所属的第二异常类型和属性信息。
在步骤200中,所述第二异常类型是指述异常源头的异常类型。
步骤220:基于所述异常源头所属的第二异常类型确定对应的信息接收端及信息输出方式。
步骤230:以所述信息输出方式向所述信息接收端发送所述异常源头的属性信息。
在步骤220中,所述信息接收端可以为客户端设备,执行所述层次化监控装置的设备可以为服务器。进行层次化监控的部分也可以在所述层次化监控装置所在的服务器节点执行,也可以所有的操作都在客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器,用于进行层次化监控的具体处理。
可以理解的是,客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。通信单元还可以接收服务器返回的预测结果。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间系统的服务器,例如与任务调度中心服务器有通信链接的第三方服务器系统的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
上述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
从上述描述可知,本申请实施例提供的云原生体系的层次化监控装置,能够提高异常指标的异常源头的维护效率以进一步保障层次化软件系统的运行可靠性。
为了进一步说明本方案,本申请还提供一种应用云原生体系的层次化监控系统实现的云原生体系的层次化监控方法的具体应用实例,为了提升监控效率,合理利用已存在的监控体系,主动追踪问题并完成问题溯源,降低人工介入的成本等目标。本发明提供了一种复用原有的监控体系,通过事件固有的特性建立指标的相关性,当发生指标异常时,由调度中心通过冒泡或遍历事件传播机制利用指标相关性,将层次化监控指标平面化,完成问题溯源。云原生体系的层次化监控方法具体包含有如下内容:
步骤1):指标采集器在启动,实时采集各个层次对象的各项监控指标,将指标采集至监控服务端(如:Prometheus),中间件监控自带分析装置,可以跳过步骤2),直接上报。
步骤2):监控服务端,通过自定义规则(报警)检测采集各项指标,若发现异常时,执行步骤3)。
步骤3):故障分析装置,通过异常指标关联物理特性(内存、网络、磁盘等),通过物理特征量选择冒泡或者遍历的方式,在本层次或者跨层次检测相关指标,将指标归整后,执行步骤4)。
步骤4):通过配置的通知方式,将采集到的内容推送处理人员。此时处理人员不仅可以查看到报警,且同时采集到相关联的信息。
所述云原生体系的层次化监控系统参见图9,包括:指标采集装置1、事件上报装置2、故障分析装置3、通知装置4。其中指标采集装置1和事件上报装置2相连,指标采集装置用于对于常规指标的全量收集,收集后将指标上报给监控服务端。事件上报装置2和故障分析装置3,当监控服务端分析指标匹配报警阈值时,触发故障分析装置3。故障分析装置3连接指标采集装置1,故障分析装置根据配置文件,通过时间固有特征值循环采用冒泡或者遍历结合方式调用采集器排查并筛选相关指标。故障分析装置3连接通知装置4,当排查到问题时或者排查结束后,将规整后信息调用发送装置完成推送。
参见图10,指标采集装置1:通过配置读取单元11,根据监控类型及监控场景,选择相关指标进行常规监控。指标采集装置12负责通过读取的配置调用接口采集相关指标,采集频率由配置定义。同时指标采集装置12对外提供http接口支持对于特定指标的采集,此功能用于异常分析阶段。指标上送13,实现对于采集后的指标上送至监控后端。
参见图11,事件上报装置2:是监控服务端,一般分为三个组成部分,指标拉取单元21,按固定频率调用接口获取指标;时序数据库22,存储采集数据方便检索;报警单元23,当采集来的指标超过阈值,执行报警。
参见图12,故障分析装置3:分为3个单元,配置单元31负责加载或者更新监控指标、物理特征信息、部署信息。通过指标关联特性获取执行类型、执行指标信息,通过部署信息,生成采集项目和采集方式。执行单元32负责根据配置单元生成结果按照冒泡或者向下遍历的方式执行实时递归查询。决策单元33,从执行单元获取查询结果执行解析,配置单元的规则完成初步匹配,确认是否故障源。执行单元和决策单元是个循环的步骤。若实现匹配或完成配置中所有解析后,执行上报。
参见图13,通知装置4:通讯配置单元41通过故障点属性查询通知人信息及通知方式。执行通知单元42读取配置根据定时通知、周期通知、实时通知三种方式完成通知。
参见图14,请求处理流程方法,其步骤如下:
步骤S101:指标采集:系统控制检测到应用启动后,完成采集器的启动。
步骤S102:指标分析:监控后端事件上报装置对于采集到的存储指标并同步开展指标分析。异常判断:若发现指标超过阈值,执行下一步。
步骤S103:故障分析:读取配置信息,获取具体执行内容,按策略冒泡检测或者遍历检测递归获取各层次指标信息。场景决策:冒泡检测(向上)或遍历检测(向下)。
步骤S104:溯源匹配:采集到检测项指标信息匹配故障分析装置异常指标阈值,开展筛选操作,此步骤是递归操作,当发现匹配项或完成所有检测,此步骤才结束。
步骤S105:通知:根据配置规则,完成通知。
从上述描述可知,为解决云原生体系监控复杂、低效的问题,本申请应用实例提供的应用云原生体系的层次化监控系统实现的云原生体系的层次化监控方法,其优点如下:
1、高效率:采用主动式监控,当发现指标异常时,自动收集各层级关联指标,完成初步排查,能更快捷、高效的发现问题。
2、低成本。采集通用指标,当发现异常是,通过关联指标获取相关信息,避免高频、大量采集对系统造成大负载。同时因为系统完成初步排查及问题定位,可以降低人力成本。
从硬件层面来说,为了解决现有的针对云原生体系进行监控的方式存在监控效率低、人工排查成本高以及被动查询造成的异常定位准确性差等问题,本申请提供一种用于实现所述层次化监控方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
图15为本申请实施例的电子设备9600的系统构成的示意框图。如图15所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图15是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在一实施例中,层次化监控功能可以被集成到中央处理器中。其中,中央处理器可以被配置为进行如下控制:
步骤100:对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测,若监测到存在异常监控指标,则获取所述异常监控指标对应的异常溯源策略。
在步骤100中,所述监控指标可以为在原始监控系统直接获取以进行复用,也可以根据所要监控的内容或对象进行重新设置或更新,本申请对此不作限定。可以理解的是,本申请的一个或多个实施例中提及的原始监控系统可以为自层次化软件系统的原有监控系统中选用的任意数量的监控系统。
另外,对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测的具体方式可以为:预先设置各项所述监控指标各自对应的异常阈值,并实施比较各项所述监控指标分别与各自对应的异常阈值,若存在监控指标超出或低于其对应的异常阈值,则将该监控指标确定为当前的异常监控指标。
以及,所述异常监控指标对应的异常溯源策略是指预先设置并存储的用于指示异常监控指标的后续处理方式的策略。
步骤200:基于所述异常溯源策略,在所述层次化软件系统中的至少一个层次中进行异常溯源检测以确定所述异常监控指标的异常源头。
可以理解的是,本申请的一个或多个实施例中提及的至少一个层次可以为所述异常监控指标所在层次和/或其他层次,其中,其他层次是指所述各个层次中除了所述异常指标所在层次之外的任意层次,在实际应用中,通常指所述异常指标的上一层次或下一层次这类相邻层次。
同时,在申请的一个或多个实施例中,异常源头是指异常监控指标之所以出现异常的溯源原因,在实际应用场景下,该异常源头可以被称之为异常监控指标的故障源头,进而能够根据该故障源头对层次化软件系统进行及时且有针对性的维护,以保证层次化软件系统的可靠运行。
从上述描述可知,本申请实施例提供的电子设备,通过在监测到异常指标后获取其对应的目标溯源策略,并基于该目标溯源策略在所述层次化软件系统中进行主动异常溯源检测,能够实现对层次化软件系统的主动异常监控,且能够有效提高层次化软件系统的异常源头获取准确性,进而能够有效提高根据该异常源头对层次化软件系统进行异常排查的准确性及效率。
在另一个实施方式中,层次化监控装置可以与中央处理器9100分开配置,例如可以将层次化监控装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现层次化监控功能。
如图15所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图15中所示的所有部件;此外,电子设备9600还可以包括图15中没有示出的部件,可以参考现有技术。
如图15所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的层次化监控方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的层次化监控方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测,若监测到存在异常监控指标,则获取所述异常监控指标对应的异常溯源策略。
在步骤100中,所述监控指标可以为在原始监控系统直接获取以进行复用,也可以根据所要监控的内容或对象进行重新设置或更新,本申请对此不作限定。可以理解的是,本申请的一个或多个实施例中提及的原始监控系统可以为自层次化软件系统的原有监控系统中选用的任意数量的监控系统。
另外,对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测的具体方式可以为:预先设置各项所述监控指标各自对应的异常阈值,并实施比较各项所述监控指标分别与各自对应的异常阈值,若存在监控指标超出或低于其对应的异常阈值,则将该监控指标确定为当前的异常监控指标。
以及,所述异常监控指标对应的异常溯源策略是指预先设置并存储的用于指示异常监控指标的后续处理方式的策略。
步骤200:基于所述异常溯源策略,在所述层次化软件系统中的至少一个层次中进行异常溯源检测以确定所述异常监控指标的异常源头。
可以理解的是,本申请的一个或多个实施例中提及的至少一个层次可以为所述异常监控指标所在层次和/或其他层次,其中,其他层次是指所述各个层次中除了所述异常指标所在层次之外的任意层次,在实际应用中,通常指所述异常指标的上一层次或下一层次这类相邻层次。
同时,在申请的一个或多个实施例中,异常源头是指异常监控指标之所以出现异常的溯源原因,在实际应用场景下,该异常源头可以被称之为异常监控指标的故障源头,进而能够根据该故障源头对层次化软件系统进行及时且有针对性的维护,以保证层次化软件系统的可靠运行。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过在监测到异常指标后获取其对应的目标溯源策略,并基于该目标溯源策略在所述层次化软件系统中进行主动异常溯源检测,能够实现对层次化软件系统的主动异常监控,且能够有效提高层次化软件系统的异常源头获取准确性,进而能够有效提高根据该异常源头对层次化软件系统进行异常排查的准确性及效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种层次化监控方法,其特征在于,包括:
对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测,若监测到存在异常监控指标,则获取所述异常监控指标对应的异常溯源策略;
基于所述异常溯源策略,在所述层次化软件系统中的至少一个层次中进行异常溯源检测以确定所述异常监控指标的异常源头。
2.根据权利要求1所述的层次化监控方法,其特征在于,还包括:
设置各监控指标的第一异常类型,所述监控指标与所述第一异常类型之间为一对一或多对一的关系;
针对各个所述第一异常类型分别设置对应的异常溯源策略;
相对应的,所述获取所述异常监控指标对应的异常溯源策略,包括:
确定所述异常监控指标对应的第一异常类型;
根据所述第一异常类型获取所述异常监控指标对应的异常溯源策略。
3.根据权利要求1或2所述的层次化监控方法,其特征在于,所述异常溯源策略中包含有溯源层次和异常溯源检测方式;
其中,所述溯源层次包括:所述异常监控指标所在层次和/或其他层次;
所述异常溯源检测方式包括冒泡排序方式和遍历方式中的至少一种。
4.根据权利要求3所述的层次化监控方法,其特征在于,所述基于所述异常溯源策略,在所述层次化软件系统中的至少一个层次中进行异常溯源检测以确定所述异常监控指标的异常源头,包括:
基于所述异常监控指标对应的异常溯源策略中的所述异常溯源检测方式,在该异常溯源策略指定的至少一个所述溯源层次中进行异常溯源检测;
根据异常溯源检测结果确定所述异常监控指标的异常源头。
5.根据权利要求4所述的层次化监控方法,其特征在于,所述根据异常溯源检测结果确定所述异常监控指标的异常源头,包括:
基于预设的异常匹配规则自所述异常溯源检测结果查找所述异常监控指标的异常源头。
6.根据权利要求1所述的层次化监控方法,其特征在于,还包括:
获取所述异常源头所属的第二异常类型和属性信息;
基于所述异常源头所属的第二异常类型确定对应的信息接收端及信息输出方式;
以所述信息输出方式向所述信息接收端发送所述异常源头的属性信息。
7.一种层次化监控装置,其特征在于,包括:
异常监测模块,用于对层次化软件系统的各个层次各自对应的各项预设监控指标进行异常监测,若监测到存在异常监控指标,则获取所述异常监控指标对应的异常溯源策略;
异常溯源模块,用于基于所述异常溯源策略,在所述层次化软件系统中的至少一个层次中进行异常溯源检测以确定所述异常监控指标的异常源头。
8.根据权利要求7所述的层次化监控装置,其特征在于,还包括:
第一异常类型设置模块,用于设置各监控指标的第一异常类型,所述监控指标与所述第一异常类型之间为一对一或多对一的关系;
策略设置模块,用于针对各个所述第一异常类型分别设置对应的异常溯源策略;
相对应的,所述异常溯源模块用于执行下述内容:
确定所述异常监控指标对应的第一异常类型;
根据所述第一异常类型获取所述异常监控指标对应的异常溯源策略。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述的层次化监控方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6任一项所述的层次化监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110110209.3A CN112799910A (zh) | 2021-01-26 | 2021-01-26 | 层次化监控方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110110209.3A CN112799910A (zh) | 2021-01-26 | 2021-01-26 | 层次化监控方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112799910A true CN112799910A (zh) | 2021-05-14 |
Family
ID=75812099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110110209.3A Pending CN112799910A (zh) | 2021-01-26 | 2021-01-26 | 层次化监控方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112799910A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115150289A (zh) * | 2022-05-26 | 2022-10-04 | 中国工商银行股份有限公司 | 基于复合监控的异常处理方法及系统 |
CN116016098A (zh) * | 2022-11-29 | 2023-04-25 | 阿里云计算有限公司 | 事件监控系统的构建方法、监控方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107896170A (zh) * | 2017-11-08 | 2018-04-10 | 平安科技(深圳)有限公司 | 保险应用系统的监控方法及装置 |
CN108632057A (zh) * | 2017-03-17 | 2018-10-09 | 华为技术有限公司 | 一种云计算服务器的故障恢复方法、装置及管理系统 |
CN109586999A (zh) * | 2018-11-12 | 2019-04-05 | 深圳先进技术研究院 | 一种容器云平台状态监控预警系统、方法及电子设备 |
US20190377871A1 (en) * | 2018-06-11 | 2019-12-12 | TmaxOS Co., Ltd. | Container-Based Integrated Management System |
CN112084055A (zh) * | 2020-08-19 | 2020-12-15 | 广州小鹏汽车科技有限公司 | 应用系统的故障定位方法、装置、电子设备及存储介质 |
-
2021
- 2021-01-26 CN CN202110110209.3A patent/CN112799910A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108632057A (zh) * | 2017-03-17 | 2018-10-09 | 华为技术有限公司 | 一种云计算服务器的故障恢复方法、装置及管理系统 |
CN107896170A (zh) * | 2017-11-08 | 2018-04-10 | 平安科技(深圳)有限公司 | 保险应用系统的监控方法及装置 |
US20190377871A1 (en) * | 2018-06-11 | 2019-12-12 | TmaxOS Co., Ltd. | Container-Based Integrated Management System |
CN109586999A (zh) * | 2018-11-12 | 2019-04-05 | 深圳先进技术研究院 | 一种容器云平台状态监控预警系统、方法及电子设备 |
CN112084055A (zh) * | 2020-08-19 | 2020-12-15 | 广州小鹏汽车科技有限公司 | 应用系统的故障定位方法、装置、电子设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115150289A (zh) * | 2022-05-26 | 2022-10-04 | 中国工商银行股份有限公司 | 基于复合监控的异常处理方法及系统 |
CN115150289B (zh) * | 2022-05-26 | 2024-04-02 | 中国工商银行股份有限公司 | 基于复合监控的异常处理方法及系统 |
CN116016098A (zh) * | 2022-11-29 | 2023-04-25 | 阿里云计算有限公司 | 事件监控系统的构建方法、监控方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423194B (zh) | 前端异常告警处理方法、装置及系统 | |
US9584364B2 (en) | Reporting performance capabilities of a computer resource service | |
CN111737127B (zh) | 用于测试地图服务的方法和装置 | |
CN105611330B (zh) | 智能电视维护方法、系统及一种服务器、一种移动终端 | |
EP2741211B1 (en) | Method and device for monitoring power consumption of android terminal application | |
CN110908879A (zh) | 埋点数据的上报方法、装置、终端和存储介质 | |
US20120079105A1 (en) | Application Processor Apparatus and Method for Monitoring A Wireless Communication Network | |
WO2018184420A1 (zh) | 软件测试方法、装置、电子设备及介质 | |
WO2019051948A1 (zh) | 监控数据的处理方法、设备、服务器及存储介质 | |
CN104063305A (zh) | 智能终端软件的压力测试方法、装置和系统 | |
CN111740860A (zh) | 日志数据传输链路监控方法及装置 | |
CN108337127B (zh) | 应用性能监控方法、系统、终端及计算机可读存储介质 | |
CN111625383B (zh) | 进程异常事件处理方法、装置、电子设备及存储介质 | |
CN108108296B (zh) | 一种云测试方法、服务器及客户端 | |
CN111352806A (zh) | 日志数据监控方法及装置 | |
CN107045475B (zh) | 测试方法和装置 | |
CN112799910A (zh) | 层次化监控方法及装置 | |
CN112583898A (zh) | 业务流程编排方法、装置、以及可读介质 | |
US10372572B1 (en) | Prediction model testing framework | |
CN105260082A (zh) | 一种测试数据展示方法及开发终端 | |
CN110290190A (zh) | 一种采集数据的方法、被监控设备及监控服务器 | |
CN104717670A (zh) | 一种业务质量测试方法、装置及系统 | |
CN113742174B (zh) | 云手机应用监控方法、装置、电子设备和存储介质 | |
CN107346280A (zh) | 一种数据上报和数据处理的方法、装置和电子设备 | |
CN110275785B (zh) | 数据处理方法、装置、客户端和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |