CN117608897A - 一种故障指标采集方法、装置、设备及存储介质 - Google Patents

一种故障指标采集方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117608897A
CN117608897A CN202311622324.4A CN202311622324A CN117608897A CN 117608897 A CN117608897 A CN 117608897A CN 202311622324 A CN202311622324 A CN 202311622324A CN 117608897 A CN117608897 A CN 117608897A
Authority
CN
China
Prior art keywords
fault
index
indexes
subset
triggered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311622324.4A
Other languages
English (en)
Inventor
刘伟
张旭春
吴海存
赵轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202311622324.4A priority Critical patent/CN117608897A/zh
Publication of CN117608897A publication Critical patent/CN117608897A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障指标采集方法、装置、设备及存储介质。所述方法包括:通过故障场景指标模型预估业务系统的故障;确定所述故障对应的故障指标子集以及故障指标采集条件;当所述故障指标采集条件被触发时,根据所述故障指标子集采集故障指标。该方法通过对业务系统中的故障预估,并确定与故障对应的故障指标子集以及故障指标采集条件,在当故障指标采集条件被触发时,根据故障指标子集采集与故障相关的故障指标,从而能够准确地获取与故障相关的指标,以通过故障指标对故障进行分析。

Description

一种故障指标采集方法、装置、设备及存储介质
技术领域
本发明实施例涉及金融科技领域,尤其涉及一种故障指标采集方法、装置、设备及存储介质。
背景技术
在金融科技领域,当服务器、数据库或中间件等关键组件发生异常,需要定位和分析错误发生的操作系统、中间件、数据库的组件或参数,排查过程需要调取大量的监控,包括与故障相关的节点上的操作系统日志、数据库日志、中间件日志、错误发生时的异常文件等,同时,分析过程还需要大量的监控指标,包括内存使用量,内存使用率,中央处理器(Central Processing Unit,CPU)利用率、网络连接、输入/输出(Input/Output,IO)、慢查询和大事务等,在综合以上分析的基础上,推导出故障原因。对于那些只在特殊情况下发生一次的问题,在测试或生产环境上复现故障往往非常困难,这就使得捕获和保存异常发生时的相关监控指标、数据和文件变得非常重要。实际上,因为生产服务器众多,每时每刻都会产生大量的监控数据,在这些数据中抓取有效的监控数据需要专业知识和运维经验。
传统方式的监控跟踪所有指标,往往产生数据海洋,对于问题的分析一般不太容易定位。而且现有监控工具实时监控全部指标,指标一般保存7-30天,分散在不同的监控日志或文件中。如不及时处理,相关指标有遗失风险,且系统管理人员需要登录各个节点检查各个日志,工作耗时,且容易出错,如错误分析了其他时间其他节点的日志,不利于故障分析。
发明内容
本发明提供了一种故障指标采集方法、装置、设备及存储介质,以解决现有技术中无法准确地获取与故障有关的指标,从而不利于故障分析的问题。
根据本发明的一方面,提供了一种故障指标采集方法,所述方法包括:
通过故障场景指标模型预估业务系统的故障;
确定所述故障对应的故障指标子集以及故障指标采集条件;
当所述故障指标采集条件被触发时,根据所述故障指标子集采集故障指标。
根据本发明的另一方面,提供了故障指标采集装置,所述装置包括:
预估模块,用于通过故障场景指标模型预估业务系统的故障;
确定模块,确定所述故障对应的故障指标子集以及故障指标采集条件;
采集模块,当所述故障指标采集条件被触发时,根据所述故障指标子集采集故障指标。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的故障指标采集方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的故障指标采集方法。
本发明实施例的一种故障指标采集方法、装置、设备及存储介质,所述方法包括:通过故障场景指标模型预估业务系统的故障;确定所述故障对应的故障指标子集以及故障指标采集条件;当所述故障指标采集条件被触发时,根据所述故障指标子集采集故障指标。该方法通过对业务系统中的故障预估,并确定与故障对应的故障指标子集以及故障指标采集条件,在当故障指标采集条件被触发时,根据故障指标子集采集与故障相关的故障指标,从而能够准确地获取与故障相关的指标,以通过故障指标对故障进行分析,解决了现有技术中无法准确地获取与故障有关的指标,从而不利于故障分析的问题。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种故障指标采集方法的流程示意图;
图2为本发明实施例提供的一种故障指标采集方法的流程示意图;
图3为本发明实施例提供的又一种故障指标采集方法的流程示意图;
图4为本发明实施例二提供的一种故障指标采集方法的流程示意图;
图5为本发明实施例三提供的一种故障指标采集装置的结构示意图;
图6为本发明实施例的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
常见的监控工具或监控命令反映的是实时的系统监控和健康情况。监控指标是分散在不同的日志和指标项中的,而且这些指标通常并不会完全、完整的保留下来,记录所有数据将产生大量的日志和数据文件。一般情况的监控数据会保留一周或一个月的时间,甚至有些数据并不做保留。如果系统故障发生在1个月以前,或者想查阅历史故障的信息并将之与新发生故障的数据进行对比,则会面临监控数据缺失的问题。这为故障原因的排查制造障碍,甚至不能够完成故障排查。出于各种各样的原因,有些时候我们并不能马上知道所有故障以及所有与故障有关的事件的发生,甚至也可能出现在故障发生很长时间后,才启动监控数据调取,开展某些排查的情况。
系统的安全运行依赖于监控系统(Monitor)。监控代理(Agent)为监控器(Monitor)获取监控数据,监控数据可以包括CPU、内存、IO、网络以及与数据库中间件相关的指标等。监控系统是指监测金融信息系统运行维护状态的系统,通常由数据采集、数据存储、数据查询和处理、告警以及可视化展示等多个功能模块组成。监控代理是指执行监控脚本,通过本地或远程采集的方式对监控对象的性能数据进行采集,再进行性能数据的加工、展示。监控器是指根据监控策略进行数据采集,根据设定的指标阈值产生告警信息。在日常监控的时候,监控指标通常包括成上百个,对于每一个类型的故障,不同的软件,不同的应用,不同的版本需要关注的监控指标项是不同的,为了在监控数据的“茫茫大海”中去掉“噪音”,需要筛选出真正有利于故障原因分析的信息。
针对现有技术中存在的问题,本实施例提供了一种故障指标采集方法,具体如下:
实施例一
图1为本发明实施例一提供的一种故障指标采集方法的流程示意图,该方法可适用于为故障定制与该故障相关的故障指标,并采集与故障相关的故障指标的情况,该方法可以由故障指标采集装置来执行,其中该装置可由软件和/或硬件实现,并一般集成在电子设备上,在本实施例中电子设备包括但不限于:计算机等设备。
如图1所示,本发明实施例一提供的一种故障指标采集方法,包括如下步骤:
S110、通过故障场景指标模型预估业务系统的故障。
其中,故障场景指标模型可以是用于预估发生的故障,并确定该故障相关的故障指标以及采集方式的模型。业务系统可以是金融机构的系统,也可以是其他应用场景的系统,本实施例对此不做限定。故障的类型可以是数据库宕机、系统无法启动等其他类型的故障。
在本实施例中,业务系统中往往会出现重复发生的故障或复杂的故障,为了分析故障原因,可以先通过故障场景指标模型预估业务系统中的故障。
S120、确定所述故障对应的故障指标子集以及故障指标采集条件。
其中,故障指标子集可以是与故障相关的故障指标的子集。故障指标采集条件可以是故障指标采集的条件。故障指标可以从监控日志、监控系统等文件获取,例如,故障指标可以从操作系统版本信息、操作系统故障发生时点的日志信息,内存、CPU在故障前后区间的趋势图,core dump文件等获取。
在本实施例中,在预估到故障后,可以通过故障场景指标模型确定该故障对应的故障指标子集以及故障指标采集条件,从而可以确定如何判断故障发生以及故障发生时应该采集什么指标。本实施例通过为不同的故障定制不同的故障指标,可以在故障真正发生时,采集相应的故障指标,为后期还原故障现场,并排查故障原因提供了有力支撑。
在一个实施例中,所述确定所述故障对应的故障指标子集,包括:对与所述故障相同类型且已经发生过的故障进行分析,得到与所述故障相关的故障指标;根据与所述故障相关的故障指标从监控指标全集中确定所述故障对应的故障指标子集。
其中,故障指标可以是与某故障相关的监控指标。监控指标全集中可以是业务系统中的所有监控指标。
在本实施例中,可以确定与预估到的故障相同类型且已经发生过的故障,通过故障场景指标模型对已经发生过的故障进行分析,得到已经发生过的故障对应的故障指标,若该故障发生过多次,则可以对每次发生时对应的故障指标进行综合分析,从监控指标全集中确定出与该故障最相关的故障指标作为对应的故障指标子集。本实施例通过预先确定故障发生有关的故障指标,可以使工作人员面向复杂问题且不断复现的情况,能够结合预知故障的场景,通过预设的故障指标,更加精准地捕获和记录故障相关的参数和指标,帮助系统管理人员快速定位和分析问题,为问题的解决提供关键证据支撑,从而实现故障现场还原,去除噪音和冗余数据,更加快速地解决问题。
S130、当所述故障指标采集条件被触发时,根据所述故障指标子集采集故障指标。
在本实施例中,通过故障指标采集条件可以确定此时是否满足故障指标采集的条件,当满足故障指标采集条件时,则可以通过预先设置的故障指标子集采集故障指标。
示例性的,在金融机构或其他应用场景的业务系统上,基础架构的各个层面涵盖大量的监控指标,以MYSQL数据库为例,包括数据库服务器所在的操作系统、MYSQL、应用服务器、应用中间件和应用程序等多个组件,以及每个组件对应的众多监控指标集。一些监控指标,例如CPU利用率等,是随着业务峰值动态变化的。在故障发生时段和平时的指标,往往有很大的不同,在故障出现后,有必要对发生故障的时间内的指标结合预估的故障问题进行有针对性的捕获。比如故障初次发生时,怀疑故障的发生与内存使用率有关,但并非100%明确,这时可以预先将内存使用率设置为希望采集的故障指标。在故障重复发生时,即可以通过预先设置的故障指标采集监控指标,若判断采集的故障指标满足了之前的预判,则可以确定故障发生的根本原因。图2为本发明实施例提供的一种故障指标采集方法的流程示意图,如图2所示,通过故障场景指标模型从所有的监控指标中确定好故障指标后,当故障发生时,则可以从业务系统中采集故障发生时刻的关键的故障指标,从而对故障进行分析。
本发明实施例一提供的一种故障指标采集方法,所述方法包括:通过故障场景指标模型预估业务系统的故障;确定所述故障对应的故障指标子集以及故障指标采集条件;当所述故障指标采集条件被触发时,根据所述故障指标子集采集故障指标。该方法通过对业务系统中的故障预估,并确定与故障对应的故障指标子集以及故障指标采集条件,在当故障指标采集条件被触发时,根据故障指标子集采集与故障相关的故障指标,从而能够准确地获取与故障相关的指标,以通过故障指标对故障进行分析,解决了现有技术中无法准确地获取与故障有关的指标,从而不利于故障分析的问题。
在上述实施例的基础上,提出了上述实施例的变型实施例,在此需要说明的是,为了使描述简要,在变型实施例中仅描述与上述实施例的不同之处。
在一个实施例中,所述方法还包括:通过所述故障场景指标模型确定所述故障指标子集中各故障指标对应的采集时间和指标粒度。
其中,采集时间可以是故障指标的收集时间。指标粒度可以是指标的粗细程度。
在本实施例中,有些故障的发生是瞬间错误造成的,而有些实际在故障发生前已有前兆,对于存在一定异常趋势的情况,可采取时间段选取定制化的方式,捕获一定时间范围内的监控数据,因此本实施例可以通过故障场景指标模型确定故障指标对应的采集时间和指标粒度,不同故障指标的采集时间和指标粒度可以相同,也可以不同。例如,故障发生时间点的前后半个小时、1个小时的监控数据。
在一个实施例中,所述根据所述故障指标子集采集故障指标,包括:
针对所述故障指标子集中每个故障指标,在所述故障指标所对应的采集时间按照所述故障指标所对应的指标粒度采集业务系统中对应的指标作为所述故障指标。
在本实施例中,当确定发生故障时,可以开始采集故障指标子集中对应的故障指标,可以根据每个故障指标对应的采集时间采集该故障指标,并根据指标粒度确定该故障指标采集的粗细程度,将采集到的指标值作为故障对应的故障指标。示例性的,图3为本发明实施例提供的又一种故障指标采集方法的流程示意图,如图3所示,通过故障场景指标模型可以确定故障指标的采集时间,当确定发生故障时,可以确定故障的发生时间,开始依次收集发生故障的时间内的故障指标。
实施例二
图4为本发明实施例二提供的一种故障指标采集方法的流程示意图,本实施例二在上述各实施例的基础上进行优化。本实施例尚未详尽的内容请参考实施例一。
如图4所示,本发明实施例二提供的一种故障指标采集方法,包括如下步骤:
S210、通过故障场景指标模型预估业务系统的故障。
S220、确定所述故障对应的故障指标子集以及故障指标采集条件。
S230、将故障指标采集条件和故障指标子集写入捕获程序。
其中,捕获程序可以是用于采集故障指标的程序。
在本实施例中,可以预先将故障指标采集条件和需要采集的故障指标子集写入捕获程序,从而通过捕获程序自动采集故障指标。
S240、通过所述捕获程序确定所述故障指标采集条件是否被触发。
在本实施例中,可以设置捕获程序的扫描周期,周期性的扫描业务系统,确定故障指标采集条件是否被触发。例如,可以每5秒启动捕获程序做一次检查。
在一个实施例中,所述通过所述捕获程序确定所述故障指标采集条件是否被触发,包括:通过捕获程序扫描日志文件中的关键字;根据所述关键字确定所述故障指标采集条件是否被触发。
其中,日志文件可以是业务系统的指定对象的某些操作和其操作结果按时间有序的集合。关键字可以是日志文件中的关键性词语。
在本实施例中,当故障与节点切换有关时,由于当数据库服务器发生节点切换时,日志文件中将出现与节点切换相关的关键字。则本实施例中捕获程序可以扫描日志文件的关键字,通过判断该关键字是否与指定节点相关则可以确定故障指标采集条件是否被触发。
S250、当所述故障指标采集条件被触发时,通过所述捕获程序采集所述故障指标子集中所包括的故障指标。
在本实施例中,当故障指标采集条件被触发时,表示此时业务系统发生了故障,则捕获程序可以根据预先确定的故障指标子集采集需要的故障指标。不同类型的故障指标可以通过不同的方式采集,例如,根据故障指标的不同,捕获程序可以将调用相应的应用程序接口(Application Programming Interface,API)、调用相应的命令、读取相关的操作系统或中间件、数据库文件以获取指定的时间(例如故障发生的前后半小时)内的指标,对于时序数据,可通过prometheus等进行呈现。捕获程序还可以,根据设定读取指定路径下的文件(例如core dump文件),还可以将故障发生时错误日志中的相关时间的错误信息截取出来,也可以将故障发生时数据库等监控日志中的故障发生时的每秒查询率(Queries PerSecond,QPS)、慢查询、大事务等信息截取出来。
在本实施例中,当故障涉及多个操作系统的节点时,还可以在不同的节点上搜集故障指标。例如,若故障的发生与A节点的切换有关,当主节点从A节点切换为B节点时,则可以在节点A上采集故障指标,当主节点从B节点切换为A节点时,则可以在节点B上采集故障指标。
本发明实施例二提供的一种故障指标采集方法,所述方法包括:通过故障场景指标模型预估业务系统的故障;确定所述故障对应的故障指标子集以及故障指标采集条件;将故障指标采集条件和故障指标子集写入捕获程序;通过所述捕获程序确定所述故障指标采集条件是否被触发;当所述故障指标采集条件被触发时,通过所述捕获程序采集所述故障指标子集中所包括的故障指标。本实施例通过进一步根据捕获程序确定故障指标采集条件是否被触发,当故障指标采集条件被触发时,可以通过捕获程序采集,从而能够准确地获取与故障相关的指标,以通过故障指标对故障进行分析,便于后续通过故障指标对故障进行分析,解决了现有技术中无法准确地获取与故障有关的指标,从而不利于故障分析的问题。
在一个实施例中,所述方法还包括:将采集到的故障指标汇总整理至指定文件夹;根据所述指定文件夹中的故障指标进行故障信息分析。
在本实施例中,当采集到故障指标后,可以将每个故障对应的故障指标进行汇总整理在依次,保存在本地一个指定的文件夹中。指定文件夹的地址可以是通过故障场景指标模型确定的,保存的时间可以是永久保存,从而可以防止指标丢失、过期。
实施例三
图5为本发明实施例三提供的一种故障指标采集装置的结构示意图,该装置可适用于为故障定制与该故障相关的指标,并采集与故障相关的故障指标的情况,其中该装置可由软件和/或硬件实现,并一般集成在电子设备上。
如图5所示,该装置包括:
预估模块310,用于通过故障场景指标模型预估业务系统的故障;
确定模块320,确定所述故障对应的故障指标子集以及故障指标采集条件;
采集模块330,当所述故障指标采集条件被触发时,根据所述故障指标子集采集故障指标。
本实施例提供了一种故障指标采集装置,所述装置包括:预估模块,用于通过故障场景指标模型预估业务系统的故障;确定模块,确定所述故障对应的故障指标子集以及故障指标采集条件;采集模块,当所述故障指标采集条件被触发时,根据所述故障指标子集采集故障指标。通过对业务系统中的故障预估,并确定与故障对应的故障指标子集以及故障指标采集条件,在当故障指标采集条件被触发时,根据故障指标子集采集与故障相关的故障指标,从而能够准确地获取与故障相关的指标,以通过故障指标对故障进行分析,解决了现有技术中无法准确地获取与故障有关的指标,从而不利于故障分析的问题。
进一步的,确定模块320,包括:
对与所述故障相同类型且已经发生过的故障进行分析,得到与所述故障相关的故障指标;
根据与所述故障相关的故障指标从监控指标全集中确定所述故障对应的故障指标子集。
进一步的,采集模块330,包括:
将故障指标采集条件和故障指标子集写入捕获程序;
通过所述捕获程序确定所述故障指标采集条件是否被触发;
当所述故障指标采集条件被触发时,通过所述捕获程序采集所述故障指标子集中所包括的故障指标。
进一步的,所述通过所述捕获程序确定所述故障指标采集条件是否被触发,包括:
通过捕获程序扫描日志文件中的关键字;
根据所述关键字确定所述故障指标采集条件是否被触发。
进一步的,所述装置还包括:
通过所述故障场景指标模型确定所述故障指标子集中各故障指标对应的采集时间和指标粒度。
进一步的,采集模块330,包括:
针对所述故障指标子集中每个故障指标,在所述故障指标所对应的采集时间按照所述故障指标所对应的指标粒度采集业务系统中对应的指标作为所述故障指标。
进一步的,所述装置还包括:
将采集到的故障指标汇总整理至指定文件夹;
根据所述指定文件夹中的故障指标进行故障分析。
上述故障指标采集装置可执行本发明任意实施例所提供的故障指标采集方法,具备执行方法相应的功能模块和有益效果。
实施例四
图6示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图6所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如故障指标采集方法。
在一些实施例中,故障指标采集方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的故障指标采集方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行故障指标采集方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种故障指标采集方法,其特征在于,所述方法包括:
通过故障场景指标模型预估业务系统的故障;
确定所述故障对应的故障指标子集以及故障指标采集条件;
当所述故障指标采集条件被触发时,根据所述故障指标子集采集故障指标。
2.根据权利要求1所述的方法,其特征在于,所述确定所述故障对应的故障指标子集,包括:
对与所述故障相同类型且已经发生过的故障进行分析,得到与所述故障相关的故障指标;
根据与所述故障相关的故障指标从监控指标全集中确定所述故障对应的故障指标子集。
3.根据权利要求1所述的方法,其特征在于,所述当所述故障指标采集条件被触发时,根据所述故障指标子集采集故障指标,包括:
将故障指标采集条件和故障指标子集写入捕获程序;
通过所述捕获程序确定所述故障指标采集条件是否被触发;
当所述故障指标采集条件被触发时,通过所述捕获程序采集所述故障指标子集中所包括的故障指标。
4.根据权利要求3所述的方法,其特征在于,所述通过所述捕获程序确定所述故障指标采集条件是否被触发,包括:
通过捕获程序扫描日志文件中的关键字;
根据所述关键字确定所述故障指标采集条件是否被触发。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过所述故障场景指标模型确定所述故障指标子集中各故障指标对应的采集时间和指标粒度。
6.根据权利要求5所述的方法,其特征在于,所述根据所述故障指标子集采集故障指标,包括:
针对所述故障指标子集中每个故障指标,在所述故障指标所对应的采集时间按照所述故障指标所对应的指标粒度采集业务系统中对应的指标作为所述故障指标。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将采集到的故障指标汇总整理至指定文件夹;
根据所述指定文件夹中的故障指标进行故障分析。
8.一种故障指标采集装置,其特征在于,所述装置包括:
预估模块,用于通过故障场景指标模型预估业务系统的故障;
确定模块,确定所述故障对应的故障指标子集以及故障指标采集条件;
采集模块,当所述故障指标采集条件被触发时,根据所述故障指标子集采集故障指标。
9.一种电子设备,其特征在于,所述设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的故障指标采集方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的故障指标采集方法。
CN202311622324.4A 2023-11-30 2023-11-30 一种故障指标采集方法、装置、设备及存储介质 Pending CN117608897A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311622324.4A CN117608897A (zh) 2023-11-30 2023-11-30 一种故障指标采集方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311622324.4A CN117608897A (zh) 2023-11-30 2023-11-30 一种故障指标采集方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117608897A true CN117608897A (zh) 2024-02-27

Family

ID=89959543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311622324.4A Pending CN117608897A (zh) 2023-11-30 2023-11-30 一种故障指标采集方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117608897A (zh)

Similar Documents

Publication Publication Date Title
CN108599977B (zh) 基于统计方法监控系统可用性的系统及方法
US20200341868A1 (en) System and Method for Reactive Log Spooling
CN116049146B (zh) 一种数据库故障处理方法、装置、设备及存储介质
CN115033463B (zh) 一种系统异常类型确定方法、装置、设备和存储介质
CN114924990A (zh) 一种异常场景测试方法及电子设备
CN115396289A (zh) 一种故障告警确定方法、装置、电子设备及存储介质
CN114885014A (zh) 一种外场设备状态的监测方法、装置、设备及介质
CN106899436A (zh) 一种云平台故障预测诊断系统
CN116645082A (zh) 一种系统巡检方法、装置、设备以及存储介质
US20150370623A1 (en) Monitoring apparatus, monitoring method, and recording medium
CN116226644A (zh) 设备故障类型的确定方法、装置、电子设备及存储介质
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质
CN117608897A (zh) 一种故障指标采集方法、装置、设备及存储介质
CN115687406A (zh) 一种调用链数据的采样方法、装置、设备及存储介质
CN115437961A (zh) 数据处理方法、装置、电子设备及存储介质
US20230004478A1 (en) Systems and methods of continuous stack trace collection to monitor an application on a server and resolve an application incident
KR20100003597A (ko) 통합 성능 모니터링 방법 및 모니터링 시스템
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN110633165B (zh) 故障处理方法、装置、系统服务器及计算机可读存储介质
CN115391227A (zh) 基于分布式系统的故障测试方法、装置、设备及介质
CN113037550B (zh) 一种服务故障监控方法、系统及计算机可读存储介质
CN113656207B (zh) 故障处理方法、装置、电子设备和介质
CN116909921A (zh) 一种数据质量检测方法、设备、装置及存储介质
CN101807167B (zh) 一种实现软件抗衰的方法及系统
CN116401132A (zh) 一种日志排查方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination