CN114490150A - 一种用于异常定位的方法和系统 - Google Patents

一种用于异常定位的方法和系统 Download PDF

Info

Publication number
CN114490150A
CN114490150A CN202111611880.2A CN202111611880A CN114490150A CN 114490150 A CN114490150 A CN 114490150A CN 202111611880 A CN202111611880 A CN 202111611880A CN 114490150 A CN114490150 A CN 114490150A
Authority
CN
China
Prior art keywords
positioning
asynchronous
alarm
abnormal
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111611880.2A
Other languages
English (en)
Inventor
蔡秦伟
陈进
肖汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Du Xiaoman Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Du Xiaoman Technology Beijing Co Ltd filed Critical Du Xiaoman Technology Beijing Co Ltd
Priority to CN202111611880.2A priority Critical patent/CN114490150A/zh
Publication of CN114490150A publication Critical patent/CN114490150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种用于异常定位的方法和系统,该方法包括:若当前的异常检测结果指示异常报警,报警模块向定位模块发送定位请求信息,其中,所述定位模块包括至少一个同步定位组件以及至少一个异步定位组件;所述定位模块接收所述定位请求信息,并根据所述定位请求信息,执行同步定位操作以及异步定位操作;所述报警模块根据所述定位模块提供的同步定位结果生成异常定位信息,并将异常定位信息发送至目标用户,其中,所述异常定位信息包括所述同步定位结果以及与所述异常检测结果对应的查询指示信息。本申请解决了在监控领域系统异常后故障定位难的问题,通过通用的用于异常定位的系统架构,能够提高整个监控系统的辅助定位能力。

Description

一种用于异常定位的方法和系统
技术领域
本申请涉及计算机技术领域,尤其涉及一种用于异常定位的技术方案。
背景技术
对于任意一个信息系统,都有可能发生异常,快速、准确、有效地定位异常是及时消除异常和修复信息系统的关键。另外,及时发现异常原因对可能导致的异常结果进行预警,有助于信息系统管理人员意识到各类异常原因的严重性,及时消除异常隐患。随着网络技术的发展,监控系统中的异常定位已成为智能运维领域的一大热点,当监控到异常时挖掘出最可能是异常发生根本原因的元素,能够便于进一步地修复止损。现有技术通常是在异常报警的时候,获取指标数据来提示报警,例如,监控系统在检测到异常报警时获取error(错误)数量、报警对象、异常时间、产品线、异常模块等指标数据并提供给报警接收人。
发明内容
本申请的目的是提供一种用于异常定位的技术方案。
根据本申请的一个实施例,提供一种用于异常定位的方法,其中,该方法包括:
若当前的异常检测结果指示异常报警,报警模块向定位模块发送定位请求信息,其中,所述定位模块包括至少一个同步定位组件以及至少一个异步定位组件;
所述定位模块接收所述定位请求信息,并根据所述定位请求信息,执行同步定位操作以及异步定位操作,其中,所述同步定位操作包括遍历执行所述至少一个同步定位组件获得同步定位结果,并将所述同步定位结果提供给所述报警模块,所述异步定位操作包括基于所述至少一个异步定位组件构建任务发送队列,通过异步线程消费所述任务发送队列执行所述至少一个异步定位组件获得异步定位结果,并将所述异步定位结果写入数据库;
所述报警模块根据所述同步定位结果生成异常定位信息,并将所述异常定位信息发送至目标用户,其中,所述异常定位信息包括所述同步定位结果以及与所述异常检测结果对应的查询指示信息。
根据本申请的另一个实施例,提供了一种用于异常定位的系统,其中,该系统包括报警模块以及定位模块,所述定位模块包括至少一个同步定位组件以及至少一个异步定位组件;
其中,所述报警模块用于:若当前的异常检测结果指示异常报警,向定位模块发送定位请求信息,以及,根据所述定位模块提供的同步定位结果生成异常定位信息,并将所述异常定位信息发送至目标用户,其中,所述异常定位信息包括所述同步定位结果以及与所述异常检测结果对应的查询指示信息;
其中,所述定位模块用于:接收所述定位请求信息,并根据所述定位请求信息,执行同步定位操作以及异步定位操作,其中,所述同步定位操作包括遍历执行所述至少一个同步定位组件获得所述同步定位结果,并将所述同步定位结果提供给所述报警模块,所述异步定位操作包括基于所述至少一个异步定位组件构建任务发送队列,通过异步线程消费所述任务发送队列执行所述至少一个异步定位组件获得异步定位结果,并将所述异步定位结果写入数据库。
根据本申请的另一个实施例,还提供了一种计算机设备,其中,所述计算机设备包括:存储器,用于存储一个或多个程序;一个或多个处理器,与所述存储器相连,当所述一个或多个程序被所述一个或者多个处理器执行时,使得所述一个或多个处理器执行本申请所述的用于异常定位的方法。
根据本申请的另一个实施例,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行本申请所述的用于异常定位的方法。
与现有技术相比,本申请具有以下优点:当检测到异常报警时,能够同步请求定位模块执行同步定位操作以及异步定位操作,进而能够将基于遍历所有同步定位组件所获得的同步定位结果所生成的异常定位信息触达用户,且由于异常定位信息中包括用于查询异步定位结果的查询指示信息,使得用户可基于所述查询指示信息来查询异步定位结果,以进一步了解报警详情,从而便于快速准确地完成故障定位;本申请解决了在监控领域系统异常后故障定位难的问题,通过通用的用于异常定位的系统架构,能够提高整个监控系统的辅助定位能力。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了本申请一个实施例的用于异常定位的方法的流程示意图;
图2示出了本申请一个示例的用于异常定位的流程示意图;
图3示出了本申请一个示例的用于异常定位的系统的结构示意图;
图4示出了可被用于实施本申请中所述的各个实施例的示例性系统。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“设备”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的程序指令来执行预定处理过程,或是由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)等硬件执行预定处理过程,或是由上述二者组合来实现。
本申请的技术方案主要由计算机设备来实现。其中,所述计算机设备包括网络设备和用户设备。所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于PC机、平板电脑、智能手机、IPTV、PDA、可穿戴设备等。其中,所述计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。
需要说明的是,上述计算机设备仅为举例,其他现有的或今后可能出现的计算机设备如可适用于本申请,也应包含在本申请保护范围以内,并以引用方式包含于此。
本文后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本申请的示例性实施例的目的。但是本申请可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
申请人发现,现有技术监控系统进行故障定位时缺乏能够有助于辅助定位的信息,如现有技术的报警信息触达用户后,只能知道是某个模块在某个时间点的一些指标出了问题,仅基于此很难快速地进行故障定位。本申请针对上述技术问题,提出了系统级规划的一个通用的定位能力流程,主要目的是在报警触达用户时,通过定位模块中的一组定位组件,获取有效的辅助信息(包括基于同步定位组件所获得的同步定位结果以及基于异步定位组件所获得的异步定位结果),以帮助用户进行故障定位。
以下结合附图对本申请的方案作进一步详细说明。
图1示出了本申请一个实施例的用于异常定位的方法的流程示意图。本实施例的方法由计算机设备实施;在一些实施例中,本实施例的方法由布置有监控系统的网络设备来实施。根据本实施例的方法包括步骤S11、步骤S12和步骤S13。在步骤S11中,若当前的异常检测结果指示异常报警,报警模块向定位模块发送定位请求信息,其中,所述定位模块包括至少一个同步定位组件以及至少一个异步定位组件;在步骤S12中,所述定位模块接收所述定位请求信息,并根据所述定位请求信息,执行同步定位操作以及异步定位操作,其中,所述同步定位操作包括遍历执行所述至少一个同步定位组件获得同步定位结果,并将所述同步定位结果提供给所述报警模块,所述异步定位操作包括基于所述至少一个异步定位组件构建任务发送队列,通过异步线程消费所述任务发送队列执行所述至少一个异步定位组件获得异步定位结果,并将所述异步定位结果写入数据库;在步骤S13中,所述报警模块根据所述同步定位结果生成异常定位信息,并将所述异常定位信息发送至目标用户,其中,所述异常定位信息包括所述同步定位结果以及与所述异常检测结果对应的查询指示信息。
在步骤S11中,若当前的异常检测结果指示异常报警,报警模块向定位模块发送定位请求信息,其中,所述定位模块包括至少一个同步定位组件以及至少一个异步定位组件。
在一些实施例中,监控系统中包括报警模块和定位模块,所述报警模块用于在检测到异常时发出异常报警,所述定位模块用于针对异常报警进行异常定位。在一些实施例中,所述定位模块中包括多个定位组件,其中,定位组件是在监控系统中描述定位任务的基本模型,一个监控配置可以关联1个或多个定位组件,不同的监控配置可以配置不同的定位组件入参,在监控到发生异常时,会触发执行定位模块中的各个定位组件。本申请中的定位组件包括同步定位组件和异步定位组件。在一些实施例中,所述同步定位组件用于执行处理较快或定位数据量不是很大的定位任务。在一些实施例中,异步定位组件用于执行处理较慢或定位数据量很大(不适合直接发送至用户,需要单独展现)的定位任务。在一些实施例中,各个异步定位组件或同步定位组件为可插拔模块,可以按照不同的业务实现快速自由插拔,操作人员可基于需求任意组合各个定位组件。
在一些实施例中,所述同步定位组件包括异常日志信息组件,所述异常日志信息组件用于获取与本次异常报警对应的异常日志信息。作为一个示例,异常日志信息组件被执行时,基于异常报警发生的时间段,追踪该时间段的日志信息,并将其作为异常日志信息。在一些实施例中,所述同步定位组件包括报警回调组件,所述报警回调组件用于获取与本次异常报警对应的报警相关信息(如监控项),在将报警相关信息发送至目标用户后,目标用户可基于相应的定位机制进行处理。在一些实施例中,所述同步定位组件包括所述异常日志信息组件以及所述报警回调组件。需要说明的是,上述同步定位组件仅为举例,而非对本申请的限制,在实际应用中,可基于实际监控需求来设定同步定位组件的数量以及功能。
在一些实施例中,所述异步定位组件包括维度占比组件,所述维度占比组件用于分析在报警条件下不同维度的占比。在一些实施例中,监控系统出现故障后,维度占比组件用于通过分析在报警条件下,一些维度(如机房、机器、IP、url、错误码、状态码等)的占比,来辅助定位,也即,维度占比组件能够用于得出哪个维度是问题发生的根源。作为一个示例,维度占比组件用于分析在异常报警发生的时间段内各个维度的占比,若发现某个机房报警数量最多,则该机房故障的可能性最大。
在一些实施例中,所述异步定位组件包括报警事件关联组件,所述报警事件关联组件用于通过分析历史报警数据,计算报警事件之间的关联关系。在一些实施例中,监控系统底层出现故障后,往往会有大量报警,所述报警事件关联组件用于通过分析历史报警数据,并通过聚类分析算法,计算出报警之间的关联关系,则在上游系统和底层系统都出现故障后,能指出是由哪部分异常导致的报警,并将所计算出的关联关系提供给用户,以辅助决策,也即报警关联分析组件能够用于推断异常发生的根本原因。由于通过报警事件之间的关联关系可以判断出报警之间的因果关系,因此执行报警事件关联组件所获得的结果能够提高定位效率。
在一些实施例中,所述异步定位组件包括关联线上操作组件,所述关联线上操作组件用于通过分析异常时间段内的系统操作记录,判断本次异常报警是否由上线操作导致。在一些实施例中,异常时间段内也即本次异常报警发生的时间段,关联线上操作组件用于根据异常时间段内的系统操作记录,分析本次异常报警发生时是否有上线事件,若有,则判定本次异常报警是由上线操作导致,否则,本次异常报警与上线操作无关,由此能够判断是否是人为操作(或人为误操作)导致的故障。
在一些实施例中,所述异步定位组件包括多根因分析组件,所述多根因分析组件用于分析不同维度下各个维度值的变化对于异常的占比以及所述各个维度值的变化差异。在一些实施例中,多根因分析组件用于通过Adtributor算法,去衡量A维度下维度值Ai的变化对于异常的占比,以及衡量维度A下维度值Ai的变化差异,找出维度值Ai占总比值比较大的并且Ai自身变化差异较大的值,该值可能就是影响最终结果的值,也即多根因分析组件能够分析不同维度下哪些维度值的变化导致了最终结果值的改变。通过执行多根因分析组件,能够计算不同维度对结果的贡献度,从而推荐出可能影响结果的最可能因素。
在一些实施例中,所述异步定位组件包括追踪(trace)信息定位组件,所述追踪信息定位组件用于追踪请求调用链日志,并根据所述调用链日志排查异常。在一些实施例中,所述异步定位组件用于根据异常信息,获取请求调用链,根据所述调用链日志排查异常,来判断哪段代码行出现了故障。
在一些实施例中,所述异步定位组件包括维度占比组件、报警事件关联组件、关联线上操作组件、多根因分析组件、追踪信息定位组件中的一个或多个。需要说明的是,上述异步定位组件仅为举例,而非对本申请的限制,在实际应用中,可基于实际监控需求来设定异步定位组件的数量以及功能。
在一些实施例中,所述定位请求信息用于请求对异常报警进行定位;在一些实施例中,所述定位请求信息包括但不限于异常报警的标识信息、异常时间、报警对象、产品线等。在一些实施例中,所述报警模块基于当前的异常检测结果判定当前存在异常报警时,向所述定位模块同步发送定位请求信息,以请求所述定位模块针对本次异常报警进行异常定位。
在步骤S12中,所述定位模块接收所述定位请求信息,并根据所述定位请求信息,执行同步定位操作以及异步定位操作,其中,所述同步定位操作包括遍历执行所述至少一个同步定位组件获得同步定位结果,并将所述同步定位结果提供给所述报警模块,所述异步定位操作包括基于所述至少一个异步定位组件构建任务发送队列,通过异步线程消费所述任务发送队列执行所述至少一个异步定位组件获得异步定位结果,并将所述异步定位结果写入数据库。
在一些实施例中,在发生异常后,在触达用户前,所述定位模块会得到所有同步定位组件的定位结果并提供给所述报警模块,所述报警模块会按照统一格式将同步定位结果拼到触达文案中一起发送给用户。在一些实施例中,所述定位模块基于kafka消息队列来执行所述至少一个异步定位组件,在接收到所述定位请求信息后,定位模块会根据此次异常报警的唯一ID,构建kafka任务发送队列,定位模块的异步线程会消费kafka执行各个异步定位组件内容,将定位数据计算处理得到异步定位结果,之后将异步定位结果写入数据库。
在一些实施例中,同步定位操作与异步定位操作的执行是相独立的,也即互不影响;所述定位模块将同步定位结果提供给所述报警模块时,所述至少一个异步定位组件可能已经执行完毕,也可能尚未执行完毕,也即所述异步定位结果可能已经被获得且写入数据库,也可能尚未获得或者尚未写入数据库,或者可能有部分异步定位结果尚未获得或者尚未写入数据库。在一些实施例中,所述同步定位操作以及异步定位操作可能同时开始执行,也可能按照预定顺序开始执行(如先启动异步定位操作,再启动同步定位操作)。
在步骤S13中,所述报警模块根据所述同步定位结果生成异常定位信息,并将所述异常定位信息发送至目标用户,其中,所述异常定位信息包括所述同步定位结果以及与所述异常检测结果对应的查询指示信息。
在一些实施例中,所述报警模块按照预定格式所述定位模块提供的、执行所述至少一个同步定位组件所获得的同步定位结果拼到触达文案中,以生成异常定位信息。在一些实施例中,所述查询指示信息用于查询异常报警对应的异步定位结果;在一些实施例中,所述查询指示信息包括但不限于:所述异步定位结果对应的链接信息、查询码、报警ID等。
在一些实施例中,所述报警模块执行所述发送操作时,所述定位模块可能已获得所述异步定位结果并写入数据库中,也可能尚未获得所述异步定位结果或尚未写入数据库中。
在一些实施例中,该方法还包括:接收所述目标用户基于所述查询指示信息发起的报警详情查询请求,从所述数据库中读取所述异步定位结果,并将所述异步定位结果发送至所述目标用户。在一些实施例中,所述报警详情查询请求包括异常报警对应的标识信息(如报警ID、唯一查询码等)。在一些实施例中,所述定位模块(也可能由设备上的其他模块来执行)接收目标用户基于其所收到的异常定位信息中的查询指示信息所发起的报警详情查询请求,根据所述报警详情查询请求中的标识信息,从数据库中读取该标识信息对应的异步定位结果,并将所述异步定位结果发送至所述目标用户。作为一个示例,异常定位信息中包括异步定位结果对应的链接信息,目标用户在用户设备上点击该链接信息,用户设备响应于该点击操作向网络设备(该网络设备中布置有本申请所提出的系统)发送报警详情查询请求,网络设备中的定位模块接收到报警详情查询请求,根据该报警详情查询请求中的标识信息,从数据库中读取该标识信息对应的异步定位结果,并将所述异步定位结果发送至用户设备上的报警详情页面上进行呈现。作为另一个示例,异常定位信息中包括异步定位结果对应的唯一查询码,目标用户在用户设备上的特定页面中输入该查询码并点击查询按钮,用户设备响应于该点击操作向网络设备发送报警详情查询请求,网络设备中的定位模块接收到报警详情查询请求,并对该报警详情查询请求中的唯一查询码进行验证,验证通过后从数据库中读取该标识信息对应的异步定位结果,并将所述异步定位结果发送至用户设备上的报警详情页面上进行呈现。在一些实施例中,若接收到报警详情查询请求之后,并未在数据库中查询到相应内容(也即异步定位结果尚未写入数据库),可提示用户稍候再作查询。
图2示出了本申请一个示例的用于异常定位的流程示意图,具体流程如下:计算机设备中的报警模块Alarmer处理异常检测结果,当判定该异常检测结果指示存在异常报警,同步请求定位模块Locator,定位模块接收到请求后,遍历执行所有同步定位组件并返回同步定位结果,且定位模块将所有异步定位组件构建kafka任务发送队列,定位模块异步线程会消费kafka执行异步定位组件内容,之后将执行结果(也即异步定位结果)写入数据库;Alarmer基于同步定位结果生成异常定位信息并发送至用户(也即触达用户),该异常定位信息中包括定位详情链接(即异步定位结果对应的链接信息),用户可点击该定位详情链接来查询详细定位信息(也即发起报警详情查询请求),Locator可根据报警详情查询请求中的报警ID,从数据库中获取异步定位结果,并发送至报警详情页面进行展示。
本申请还提出了一种用于异常定位的系统,其中,该系统包括报警模块以及定位模块,所述定位模块包括至少一个同步定位组件以及至少一个异步定位组件;其中,所述报警模块用于:若当前的异常检测结果指示异常报警,向定位模块发送定位请求信息,以及,根据所述定位模块提供的同步定位结果生成异常定位信息,并将所述异常定位信息发送至目标用户,其中,所述异常定位信息包括所述同步定位结果以及与所述异常检测结果对应的查询指示信息;其中,所述定位模块用于:接收所述定位请求信息,并根据所述定位请求信息,执行同步定位操作以及异步定位操作,其中,所述同步定位操作包括遍历执行所述至少一个同步定位组件获得所述同步定位结果,并将所述同步定位结果提供给所述报警模块,所述异步定位操作包括基于所述至少一个异步定位组件构建任务发送队列,通过异步线程消费所述任务发送队列执行所述至少一个异步定位组件获得异步定位结果,并将所述异步定位结果写入数据库。在一些实施例中,该系统还用于:接收所述目标用户基于所述查询指示信息发起的报警详情查询请求,从所述数据库中读取所述异步定位结果,并将所述异步定位结果发送至所述目标用户。图3示出了本申请一个示例的用于异常定位的系统的结构示意图,该示例的系统(如图3所示“异常定位系统”)中包括报警模块、定位模块以及数据库,所述定位模块中的同步定位组件包括异常日志信息组件、所述报警回调组件,所述定位模块中的异步定位组件包括维度占比组件、报警事件关联组件、关联线上操作组件、多根因分析组件、追踪信息定位组件。本申请所提出的系统中各个模块或组件的功能已在前述实施例中予以详述,在此不再赘述。
根据本申请的方案,当检测到异常报警时,能够同步请求定位模块执行同步定位操作以及异步定位操作,进而能够将基于遍历所有同步定位组件所获得的同步定位结果所生成的异常定位信息触达用户,且由于异常定位信息中包括用于查询异步定位结果的查询指示信息,使得用户可基于所述查询指示信息来查询异步定位结果,以进一步了解报警详情,从而便于快速准确地完成故障定位;本申请解决了在监控领域系统异常后故障定位难的问题,通过通用的用于异常定位的系统架构,能够提高整个监控系统的辅助定位能力。
本申请还提供了一种计算机设备,其中,所述计算机设备包括:存储器,用于存储一个或多个程序;一个或多个处理器,与所述存储器相连,当所述一个或多个程序被所述一个或者多个处理器执行时,使得所述一个或多个处理器执行本申请所述的用于异常定位的方法。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行本申请所述的用于异常定位的方法。
本申请还提供了一种计算机程序产品,当所述计算机程序产品被设备执行时,使得所述设备执行本申请所述的用于异常定位的方法。
图4示出了可被用于实施本申请中所述的各个实施例的示例性系统。
在一些实施例中,系统1000能够作为本申请实施例中的任意一个处理设备。在一些实施例中,系统1000可包括具有指令的一个或多个计算机可读介质(例如,系统存储器或NVM/存储设备1020)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如,(一个或多个)处理器1005)。
对于一个实施例,系统控制模块1010可包括任意适当的接口控制器,以向(一个或多个)处理器1005中的至少一个和/或与系统控制模块1010通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块1010可包括存储器控制器模块1030,以向系统存储器1015提供接口。存储器控制器模块1030可以是硬件模块、软件模块和/或固件模块。
系统存储器1015可被用于例如为系统1000加载和存储数据和/或指令。对于一个实施例,系统存储器1015可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器1015可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块1010可包括一个或多个输入/输出(I/O)控制器,以向NVM/存储设备1020及(一个或多个)通信接口1025提供接口。
例如,NVM/存储设备1020可被用于存储数据和/或指令。NVM/存储设备1020可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1020可包括在物理上作为系统1000被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备1020可通过网络经由(一个或多个)通信接口1025进行访问。
(一个或多个)通信接口1025可为系统1000提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统1000可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器(例如,存储器控制器模块1030)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统1000可以但不限于是:服务器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统1000可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统1000包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (15)

1.一种用于异常定位的方法,其中,该方法包括:
若当前的异常检测结果指示异常报警,报警模块向定位模块发送定位请求信息,其中,所述定位模块包括至少一个同步定位组件以及至少一个异步定位组件;
所述定位模块接收所述定位请求信息,并根据所述定位请求信息,执行同步定位操作以及异步定位操作,其中,所述同步定位操作包括遍历执行所述至少一个同步定位组件获得同步定位结果,并将所述同步定位结果提供给所述报警模块,所述异步定位操作包括基于所述至少一个异步定位组件构建任务发送队列,通过异步线程消费所述任务发送队列执行所述至少一个异步定位组件获得异步定位结果,并将所述异步定位结果写入数据库;
所述报警模块根据所述同步定位结果生成异常定位信息,并将所述异常定位信息发送至目标用户,其中,所述异常定位信息包括所述同步定位结果以及与所述异常检测结果对应的查询指示信息。
2.根据权利要求1所述的方法,其中,该方法还包括:
接收所述目标用户基于所述查询指示信息发起的报警详情查询请求,从所述数据库中读取所述异步定位结果,并将所述异步定位结果发送至所述目标用户。
3.根据权利要求1或2所述的方法,其中,所述查询指示信息包括所述异步定位结果对应的链接信息。
4.根据权利要求1至3中任一项所述的方法,其中,所述同步定位组件包括异常日志信息组件,所述异常日志信息组件用于获取与本次异常报警对应的异常日志信息。
5.根据权利要求1至3中任一项所述的方法,其中,所述同步定位组件包括报警回调组件,所述报警回调组件用于获取与本次异常报警对应报警相关信息。
6.根据权利要求1至5中任一项所述的方法,其中,所述异步定位组件包括维度占比组件,所述维度占比组件用于分析在报警条件下不同维度的占比。
7.根据权利要求1至5中任一项所述的方法,其中,所述异步定位组件包括报警事件关联组件,所述报警事件关联组件用于通过分析历史报警数据,计算报警事件之间的关联关系。
8.根据权利要求1至5中任一项所述的方法,其中,所述异步定位组件包括关联线上操作组件,所述关联线上操作组件用于通过分析异常时间段内的系统操作记录,判断本次异常报警是否由上线操作导致。
9.根据权利要求1至5中任一项所述的方法,其中,所述异步定位组件包括多根因分析组件,所述多根因分析组件用于分析不同维度下各个维度值的变化对于异常的占比以及所述各个维度值的变化差异。
10.根据权利要求1至5中任一项所述的方法,其中,所述异步定位组件包括追踪信息定位组件,所述追踪信息定位组件用于追踪请求调用链日志,并根据所述调用链日志排查异常。
11.根据权利要求1至10中任一项所述的方法,其中,各个异步定位组件或同步定位组件为可插拔模块。
12.一种用于异常定位的系统,其中,该系统包括报警模块以及定位模块,所述定位模块包括至少一个同步定位组件以及至少一个异步定位组件;
其中,所述报警模块用于:若当前的异常检测结果指示异常报警,向定位模块发送定位请求信息,以及,根据所述定位模块提供的同步定位结果生成异常定位信息,并将所述异常定位信息发送至目标用户,其中,所述异常定位信息包括所述同步定位结果以及与所述异常检测结果对应的查询指示信息;
其中,所述定位模块用于:接收所述定位请求信息,并根据所述定位请求信息,执行同步定位操作以及异步定位操作,其中,所述同步定位操作包括遍历执行所述至少一个同步定位组件获得所述同步定位结果,并将所述同步定位结果提供给所述报警模块,所述异步定位操作包括基于所述至少一个异步定位组件构建任务发送队列,通过异步线程消费所述任务发送队列执行所述至少一个异步定位组件获得异步定位结果,并将所述异步定位结果写入数据库。
13.根据权利要求12所述的系统,其中,该系统还用于:
接收所述目标用户基于所述查询指示信息发起的报警详情查询请求,从所述数据库中读取所述异步定位结果,并将所述异步定位结果发送至所述目标用户。
14.一种计算机设备,其中,所述计算机设备包括:
存储器,用于存储一个或多个程序;
一个或多个处理器,与所述存储器相连,
当所述一个或多个程序被所述一个或者多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至11中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行如权利要求1至11中任一项所述的方法。
CN202111611880.2A 2021-12-27 2021-12-27 一种用于异常定位的方法和系统 Pending CN114490150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111611880.2A CN114490150A (zh) 2021-12-27 2021-12-27 一种用于异常定位的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111611880.2A CN114490150A (zh) 2021-12-27 2021-12-27 一种用于异常定位的方法和系统

Publications (1)

Publication Number Publication Date
CN114490150A true CN114490150A (zh) 2022-05-13

Family

ID=81497029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111611880.2A Pending CN114490150A (zh) 2021-12-27 2021-12-27 一种用于异常定位的方法和系统

Country Status (1)

Country Link
CN (1) CN114490150A (zh)

Similar Documents

Publication Publication Date Title
CN108683562B (zh) 异常检测定位方法、装置、计算机设备及存储介质
US9424157B2 (en) Early detection of failing computers
US10303533B1 (en) Real-time log analysis service for integrating external event data with log data for use in root cause analysis
TWI533123B (zh) 自動化測試及結果比對方法及系統
US20240020215A1 (en) Analyzing large-scale data processing jobs
US20170034001A1 (en) Isolation of problems in a virtual environment
CN111858254B (zh) 数据的处理方法、装置、计算设备和介质
JP2018205811A (ja) 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
US9043652B2 (en) User-coordinated resource recovery
US20180095819A1 (en) Incident analysis program, incident analysis method, information processing device, service identification program, service identification method, and service identification device
CN104750605A (zh) 将内核对象信息包括在用户转储中
CN112665710A (zh) 设备运行状态的检测方法、装置、电子设备及存储介质
CN114490150A (zh) 一种用于异常定位的方法和系统
CN112965791B (zh) 定时任务检测方法、装置、设备及存储介质
CN112966056B (zh) 一种信息处理方法、装置、设备、系统及可读存储介质
CN114372003A (zh) 测试环境监控方法、装置与电子设备
US20140164650A1 (en) System, method and computer program product for monitoring and alerting the health of sub-system connectors
CN113312197A (zh) 批量故障的确定方法和装置,计算机存储介质和电子设备
WO2022015313A1 (en) Generation of alerts of correlated time-series behavior of environments
CN111737354A (zh) 数据一致性的检测方法、装置、系统及介质
CN117555719A (zh) 一种系统异常定位的方法、装置、存储介质及电子设备
CN112433915A (zh) 一种基于分布式性能监控工具的数据监控方法及相关装置
CN117387730A (zh) 水位传感器的故障检测方法、系统、设备及介质
CN117271184A (zh) 一种基于观测云进行根因分析的决策分析方法及系统
CN117056184A (zh) 数据库系统的检测方法及装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination