CN111309567A - 数据处理方法、装置、数据库系统、电子设备及存储介质 - Google Patents

数据处理方法、装置、数据库系统、电子设备及存储介质 Download PDF

Info

Publication number
CN111309567A
CN111309567A CN202010077017.2A CN202010077017A CN111309567A CN 111309567 A CN111309567 A CN 111309567A CN 202010077017 A CN202010077017 A CN 202010077017A CN 111309567 A CN111309567 A CN 111309567A
Authority
CN
China
Prior art keywords
abnormal
indexes
host
phenomena
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010077017.2A
Other languages
English (en)
Other versions
CN111309567B (zh
Inventor
殷征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010077017.2A priority Critical patent/CN111309567B/zh
Publication of CN111309567A publication Critical patent/CN111309567A/zh
Priority to PCT/CN2021/072596 priority patent/WO2021147832A1/zh
Priority to US17/861,134 priority patent/US12001275B2/en
Application granted granted Critical
Publication of CN111309567B publication Critical patent/CN111309567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种数据处理方法、装置、数据库系统、电子设备及存储介质。其中,所述数据处理方法包括获取根据数据库系统的异常指标生成的故障分析结果数据,所述故障分析结果中包括异常指标中存在关联关系的关联异常指标、以及所述关联异常指标之间的异常传播关系;根据所述关联异常指标、以及所述关联异常指标之间的异常传播关系,生成用于展示所述关联异常指标对应的异常原因和异常现象间因果关系的有向告警图;展示所述有向告警图,以进行告警。通过本发明实施例,可以更加直观、高效地告警。

Description

数据处理方法、装置、数据库系统、电子设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据处理方法、装置、数据库系统、电子设备及存储介质。
背景技术
数据库系统作为一种可存储和维护数据的系统,其稳定可靠运行是为用户提供良好服务的基础。为了保证数据库系统的稳定可靠运行,需要对数据库系统进行监测,并及时发现和排除故障。
现有技术中,通过对数据库系统的100多个运行指标进行监控,确定数据库系统是否存在告警或者异常事件。如果存在告警或者异常事件,则通过发送消息等方式向数据库管理员(DBA)展示异常的运行指标,从而实现告警的目的。
这种告警交互方式存在的问题在于,数据库管理员在看到异常的运行指标后需要人工确定导致出现异常的运行指标的根因,这需要数据库管理员先查看20多个关键运行指标,再通过关键运行指标的数据推测出更细粒度的运行指标,之后查询与运行指标对应的关联事件,最终推测出根因。这一过程需要数据库管理员花费5分钟或5分钟以上的时间来定位一个异常的运行指标的根因,导致耗时长,无法为用户提供稳定可靠的数据库服务,而且依赖数据库管理员的个人经验。
因此,亟需一种能够使数据库管理员快速、方便地确定导致异常的运行指标的根因的交互方式,从而便于数据库管理员维护数据库系统。
发明内容
有鉴于此,本发明实施例提供一种数据处理方案,以解决上述部分或全部问题。
根据本发明实施例的第一方面,提供了一种数据处理方法,包括:获取根据数据库系统的异常指标生成的故障分析结果数据,所述故障分析结果中包括异常指标中存在关联关系的关联异常指标、以及所述关联异常指标之间的异常传播关系;根据所述关联异常指标、以及所述关联异常指标之间的异常传播关系,生成用于展示所述关联异常指标对应的异常原因和异常现象间因果关系的有向告警图;展示所述有向告警图,以进行告警。
根据本发明实施例的第二方面,提供了一种数据处理装置,包括:获取模块,用于获取根据数据库系统的异常指标生成的故障分析结果数据,所述故障分析结果中包括异常指标中存在关联关系的关联异常指标、以及所述关联异常指标之间的异常传播关系;生成模块,用于根据所述关联异常指标、以及所述关联异常指标之间的异常传播关系,生成用于展示所述关联异常指标对应的异常原因和异常现象间因果关系的有向告警图;展示模块,用于展示所述有向告警图,以进行告警。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的数据处理方法对应的操作。
根据本发明实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的数据处理方法。
根据本发明实施例的第五方面,提供一种数据库系统,包括:处理组件,用于获取根据数据库系统的异常指标生成的故障分析结果数据,所述故障分析结果中包括异常指标中存在关联关系的关联异常指标、以及所述关联异常指标之间的异常传播关系;交互显示界面,用于展示有向告警图,所述告警图是根据所述关联异常指标、以及所述关联异常指标之间的异常传播关系生成的。
根据本发明实施例提供的数据处理方案,根据异常指标生成故障分析结果数据,之后根据故障分析结果数据生成有向的、能够指示异常原因和异常现象之间的因果关系的有向告警图,采用这种有向图的方式与用户进行交互,使得用户可以直观地确定异常原因,并方便、简明地查看该异常原因导致的各个异常现象,从而可以快速排除异常。通过这种有向告警图进行告警,使得与用户的交互更加直观、快速、简明,提升了交互效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1a为根据本发明实施例一的一种数据处理方法的步骤流程图;
图1b为根据本发明实施例一的生成的有向告警图的示意图;
图2a为根据本发明实施例二的一种数据处理方法的步骤流程图;
图2b为根据本发明实施例二的一种数据库系统的结构示意图;
图2c为根据本发明实施例二的数据库性能指标分类的示意图;
图2d为根据本发明实施例二的一种使用场景中生成有向告警图的示意图;
图2e为根据本发明实施例二的一种使用场景中点击有向告警图展示关联异常指标的示意图;
图3为根据本发明实施例三的一种数据处理装置的结构框图;
图4为根据本发明实施例四的一种数据库系统的结构框图;
图5为根据本发明实施例五的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
参照图1a,示出了根据本发明实施例一的一种数据处理方法的步骤流程图。
在本实施例中,以数据处理方法可以应用于配置有数据库系统的服务端(服务端包括服务器或云端)中,对数据库系统的故障进行告警为例进行说明。当然,在其他实施例中,数据处理方法可以应用于终端设备中。
本实施例的数据处理方法包括以下步骤:
步骤S102:获取根据数据库系统的异常指标生成的故障分析结果数据。
数据库系统的异常指标可以是监测的运行指标中异常的部分,运行指标用于指示数据库系统运行状态。例如,运行指标包括但不限于CPU使用率、内存使用率、业务流量、tcp响应时间等等。如果监测的某个或某些运行指标数值超出合理范围,则确定其为异常指标。
通过对异常指标进行分析处理可以获得故障分析结果数据。该故障分析结果数据包括异常指标中存在关联关系的关联异常指标、以及这些关联异常指标之间的异常传播关系。
关联异常指标是指数据库系统中由同一原因导致的多种不同异常指标,这些异常指标之间具有关联性。例如,在某一种故障情况中,关联异常指标包括:主机CPU使用率达到100%、主机的CPU使用率上升、磁盘每秒IO上升、磁盘IO响应时间上升、数据库活动会话量上升、tcp响应时间上升、业务流量下降等等,这些关联异常指标可能是由于同一原因引起的。
关联异常指标之间的异常传播关系例如为:主机CPU使用率达到100%导致了主机的CPU使用率上升、磁盘每秒IO上升、磁盘IO响应时间上升,进而导致了数据库活动会话量上升,再导致了tcp响应时间上升,最终导致了业务流量下降。
本领域技术人员可以采用任何适当的方式对异常数据进行分析,以获取故障分析结果数据。例如,使用DAS(Database autonomy Service数据库自治服务)对异常指标进行分析,从而获得其输出的故障分析结果数据。
又例如:在获取到异常指标后,通过聚类算法和关联分析对异常指标进行分类,获得分类结果。该分类结果中相关联的关联异常指标属于同一类,每一类中可能包括一层或多层,处于同一层的关联异常指标指示的波动方向大概率一致,如主机的CPU使用率上升、磁盘每秒IO上升和磁盘IO响应时间上升处于分类结果中的同一层,其指示的波动方向为上涨。
针对分类结果中的各层关联异常指标通过传播方向分析算法即可以确定关联异常指标之间的异常传播方向,以据此确定异常传播关系,进而生成故障分析结果数据。
优选地,在一种可行方式中,针对分类结果中的各层的关联异常指标,通过泛化处理的方式进行泛化分类,再根据泛化分类的泛化结果生成故障分析结果数据。这样通过对关联异常指标进行泛化分类,解决了很难通过海量的关联异常指标体现出数据库系统异常,同一层的关联异常指标显示的过多,无法给用户清晰的交互的问题,通过这种泛化分类方式使得后续生成的有向告警图的可解释性更强,并对海量的关联异常指标进行了有效的概括。
当然,在其他实施例中,本领域技术人员可以采用其他方式生成故障分析结果数据,本实施例对此不作限制。
步骤S104:根据所述关联异常指标、以及所述关联异常指标之间的异常传播关系,生成用于展示所述关联异常指标对应的异常原因和异常现象间因果关系的有向告警图。
在本实施例中,为了便于生成有向告警图,可以预先设置候选异常原因和候选异常现象,并将候选异常原因和候选异常现象进行分类,从而后续生成有向告警图时可以按类展示,使得有向告警图更加简洁和直观。
一种具体的分类方式可以为:候选异常原因主要分为三大类,分别为实例异常负载(实例异常workload)、主机故障(host problems)和外部操作故障(external operationproblems)。
其中,实例异常负载可以分为几个细类,例如,实例异常负载包括下列至少之一:CPU密集型异常负载(CPU Intensive Workload)、IO密集型异常负载(IO IntensiveWorkload)和故障结构化查询语句(Poor SQL)。
主机故障可以分为几个细类,例如,主机故障包括下列至少之一:主机CPU瓶颈(Host CPU Bottleneck)、主机IO瓶颈(Host IO Bottleneck)、主机内存瓶颈(Host MemoryBottleneck)、主机网络瓶颈(Host Network Bottleneck)、主机磁盘空间瓶颈(HostStorage Bottleneck)和主机硬件故障(Host Host Hardware Problem)。
外部操作故障可以分为几个细类,例如,外部操作故障包括下列至少之一:实例参数调整故障(Instance Parameter adjustment Problem)、实例主被切换故障(Instancemaster/slaveswitch operations Problem)、实例备份迁移故障(Instance migration/backuptasks Problem)和主机操作任务故障(Host operation tasks Problem)。
所述候选异常现象按照涉及的数据库系统的对象不同可以分为不同层级的异常现象,具体例如,资源现象(resource phenomenon)、会话现象(session phenomenon)、TCP响应时间现象(TCP RT phenomenon)、过载现象(outrage phenomenon)等。具体例如,候选异常现象包括下列至少之一:实例CPU突增(Instance CPU Saturation)、实例IO突增(Instance IO Saturation)、实例内存溢出(Instance OOM)、主机CPU资源抢占(HostPreemption of CPU)、主机IO资源抢占(host preemption of io)、主机内存资源抢占(Host Preemption of Memory)、主机网络资源抢占(Host Preemption of Network)、主机空间异常变化(Local/Remote Storage Change Session)、会话突增(Session SuddenIncrease)、TCP响应时间突增(TCP RT Sudden Increase)和业务流量下跌(TrafficDrop)。
需要说明的是,本领域技术人员可以根据需要的不同而采用不同的分类方式,本实施例对此不作限制。
在一具体实现中,在根据故障分析结果数据确定异常原因和异常现象时,根据关联异常指标之间的异常传播关系,可以确定根异常指标和剩余异常指标。例如,根异常指标为主机CPU使用率达到100%,根据对应关系,确定该根异常指标对应的异常原因为主机CPU瓶颈。类似地,针对各剩余异常指标可以确定对应的异常现象。
由于不同的剩余异常指标对应的异常现象可能不同,因此,可以根据异常传播关系进一步确定不同异常现象之间的传播关系,进而根据异常原因、异常现象以及异常现象之间的传播关系生成有向告警图。
具体地,在有向告警图中分类展示候选异常原因,并将确定的异常原因设置为区别于其他异常原因的样式,使用户能够直观地看到异常原因。此外,根据异常现象之间的传播关系依次排列各层级候选异常现象,并将确定异常现象设置为区别于其他异常现象的样式,从而使用户直观地确定异常原因导致的异常现象。
在本实施例中,利用有向告警图,通过把具体数据库系统(从请求层到数据库引擎层,再到数据库实例所在的主机层等不同层次)抽象为图中的一个个节点,把异常传播关系抽象为连接两个节点的有向边,从而把数据库系统抽象化,以便更加方便、清晰地展示出现的异常的因果关系。
后续,可以向用户展示所述有向告警图,以进行告警。
例如,为了便于用户(例如数据库管理员)及时了解异常,并直观地确定导致异常的异常原因和产生的异常现象,在生成有向告警图之后可以展示该有向告警图,以通过此种较为直接的交互方式与用户进行交互,从而告警。
一种有向告警图如图1b所示,该有向告警图中直观地展示了由于主机资源瓶颈导致的实例故障、业务流量下跌的告警图,其中,主机资源瓶颈(即图中所示的主机CPU瓶颈和主机IO瓶颈)为异常原因,主机CPU资源抢占、主机IO资源抢占、主机网络资源抢占等等均为异常现象。通过这种有向告警图使得用户可以快速定位异常原因,以便能够快速解决异常。
通过本实施例,根据异常指标生成故障分析结果数据,之后根据故障分析结果数据生成有向的、能够指示异常原因和异常现象之间的因果关系的有向告警图,采用这种有向图的方式与用户进行交互,使得用户可以直观地确定异常原因,并方便、简明地查看该异常原因导致的各个异常现象,从而可以快速排除异常。通过这种有向告警图进行告警,使得与用户的交互更加直观、快速、简明,提升了交互效率。
本实施例的数据处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
实施例二
参照图2a,示出了根据本发明实施例二的一种数据处理方法的步骤流程图。
在本实施例中,以数据处理方法可以应用于配置有数据库系统的服务端(服务端包括服务器或云端)中,对数据库系统的故障进行告警为例进行说明。当然,在其他实施例中,数据处理方法可以应用于终端设备中。
本实施例的数据处理方法包括前述的步骤S102~步骤S104。
其中,结合图2b中所示数据库系统,以一具体示例的方式对生成有向告警图和通过有向告警图进行交互的实现方式进行说明。数据库系统中,客户端用于与用户进行交互,如接收用户请求等。数据处理服务器用于处理用户请求,并和数据存储层交互以获取数据。
其中,在步骤S102中,异常指标可以是监测的运行指标中存在异常的指标。
如图2c所示,在本实施例中,运行指标主要是指检测的数据处理服务器和数据存储层的运行指标。根据监测对象不同,运行指标可以分为以下几类:
属于主机资源层(host_resource)和容器资源层的运行指标,其用于监测数据库系统所在的主机(如云弹性服务器ECS或物理机等)或容器的故障。主机资源层和容器资源层中的运行指标包括但不限于:CPU(中央处理器)使用率、IO(Input/Output,输入/输出)使用率、内存使用率、存储空间占用。
属于数据库实例资源层(mysql_resource)的运行指标,其为用于监测数据库系统所在实例层资源类指标,以实现监测实例层的故障的目的。数据库实例资源层中的运行指标包括但不限于:mysql.cpu、mysql.storage、mysql.io、mysql.mem、mysql.session。
属于TCP层的运行指标,其包括用于监测与响应时间相关的指标,以反映网络层对请求的响应时间。TCP层中的运行指标包括但不限于:tcp_rt(即tcp_response time,tcp响应时间)。
属于请求层负载(workload)的运行指标,其包括监测用户执行的SQL、SQL的负载(workload)、以及其他施加到数据库实例的请求操作类的指标,以监测请求层负载。请求层负载中的运行指标包括但不限于:mysql.workload_rows、mysql.workload_ps。
其他的运行指标类别还可以包括属于数据库实例引擎层的运行指标(如mysql_innodb_bp、mysql_innodb_bp_io、mysql_innodb_data_io、mysql_innodb_log_io等等)和属于数据库相关实例层的运行指标(如mysql.cluster、mysql.slave等等)。
需要说明的是,根据需要的不同,可以采用不同的分类标准对运行指标进行分类,本实施例中对此不作限定。下面以异常指标为主机CPU使用率达到100%(cpu.usage reach100%)、主机的CPU使用率上升(cpu.usage↑)、磁盘每秒IO上升(diskstat.iops↑)、数据库活动会话量上升(mysql.active_session↑)、tcp响应时间上升(tcp_rt↑)、业务流量下降(mysql.insert_ps↓)为例,对数据处理方法说明如下:
通过对异常指标进行分析处理,获得故障分析结果数据,该故障分析结果数据中包括关联异常指标、以及关联异常指标之间的异常传播关系。
例如,采用前述实施例一中所述的方式,使用聚类算法、关联分析算法、和泛化分类算法对异常指标进行处理,获得泛化分类结果作为故障分析结果数据。
异常指标包括以下信息:指标属性(Attribute)、指标值域(Domain)、泛化层次结构(Generalization Hierarchy)和不相似度(Dissimilarity)。
其中,指标属性用于指示构成指标特征的信息。指标值域用于指示指标的值的范围,指标值域可以设置一个阈值,若指标值在阈值之下,则不论指标如果波动均不认为其为异常指标。泛化层次结构用于指示对应的异常指标的泛化层次结构,即异常指标所属的类别信息(如CPU使用率达到100%属于主机资源层中的CPU使用率等)。不相似度指示不同指标间的关联关系,相似度低的异常指标之间不相关,泛化分类也不会分在一类中。
在获取到故障分析结果数据后,可以执行步骤S104,以根据其生成有向告警图。
其中,在一种具体实现中,所述步骤S104包括以下子步骤:
子步骤S1041:根据所述关联异常指标之间的异常传播关系,确定所述关联异常指标中的根异常指标和剩余异常指标。
针对某个关联异常指标,若根据异常传播关系确定的关联异常指标之间的传播方向无指向该关联异常指标,则确定其为根异常指标。需要说明的是,根异常指标可以是一个或一个以上。如前述的CPU使用率达到100%即为根异常指标。
在所有关联异常指标中除根异常指标外的其他异常指标即为剩余异常指标。如前述的主机的CPU使用率上升、磁盘每秒IO上升、数据库活动会话量上升、tcp响应时间上升、业务流量下降等即为剩余异常指标。
子步骤S1042:根据所述根异常指标所属的类别信息确定所述根异常指标对应的异常原因,并根据所述剩余异常指标所属的类别信息和所述剩余异常指标之间的传播方向,确定所述剩余异常指标对应的异常现象以及异常现象之间的传播方向。
在确定根异常指标和剩余异常指标之后,根据故障分析结果数据中根异常指标的类别信息,如CPU使用率达到100%所属的类别为主机资源层中的CPU使用率。根据该类别信息可以确定对应的异常原因,如“主机资源层中的CPU使用率达到100%”对应的异常原因为“主机故障中的主机CPU瓶颈”。
类似地,根据各剩余异常指标所属的类别信息可以确定其对应的异常现象,如剩余异常指标“主机的CPU使用率上升”对应的异常现象为“主机CPU资源抢占”等。
此外,根据异常传播关系可以确定剩余异常指标之间的传播方向,如剩余异常指标A“磁盘每秒IO上升”和剩余异常指标B“tcp响应时间上升”之间的传播方向为由A指向B。
子步骤S1043:根据所述根异常指标对应的异常原因、所述剩余异常指标对应的异常现象以及异常现象之间的传播方向,生成用于指示异常原因和异常现象间因果关系的所述有向告警图。
在一具体实现中,有向告警图中包括与异常原因对应的第一可视化对象、与预设的候选原因中除所述异常原因外的剩余原因对应的第二可视化对象,所述第一可视化对象区别于所述第二可视化对象。例如,对第一可视化对象进行突出显示、着色等处理,使其区别于第二可视化对象。
和/或,所述有向告警图中还包括与异常现象对应的第三可视化对象、和与预设的候选现象中除所述异常现象外的剩余现象对应的第四可视化对象,所述第三可视化对象区别于所述第四可视化对象。例如,对第三可视化对象进行突出显示、着色等处理,使其区别于第四可视化对象。
异常原因和异常现象之间、两个异常现象之间可以通过箭头等图标指示传播方向,以方便用户确定因果关系。或者,异常现象之间可以通过沿某一方向依次排列的方式指示传播方向,只要用户根据有向告警图可以确定因果关系即可。一种生成的有向告警图如图2d所示。
可选地,在本实施例中,为了进一步提升交互性,使用户查看异常指标更加方便,所述方法还包括:
步骤S106:展示所述有向告警图,以进行告警。
例如,在显示界面中展示有向告警图,使用户可以直观地查看。
步骤S108:接收对展示的所述有向告警图中的第一可视化对象或第三可视化对象的触发操作。
如果用户在查看有向告警图时,希望查看某类异常原因对应的根异常指标或者查看某类异常现象对应的剩余异常原因,则可以对有向告警图中的第一可视化对象或第三可视化对象进行触发操作(如点击)。
例如,用户点击图2d中的标示有“主机CPU瓶颈”的第一可视化对象,或者点击图2d中的标示有“主机CPU资源抢占”的第三可视化对象。
步骤S110:根据所述触发操作,展示与被触发的所述第一可视化对象指示的异常原因对应的异常指标的信息或展示与被触发的所述第三可视化对象指示的异常现象对应的异常指标的信息。
所述异常指标的信息包括下列至少之一:异常指标标识和用于表征异常指标异常波动方向的波动标识。异常指标标识如cpu.usage等,表征异常指标异常波动方向的波动标识如reach 100%或者向上、向下等。
例如,在用户点击图2d中的标示有“主机CPU瓶颈”的第一可视化对象后,该第一可视化对象对应的异常原因为主机CPU瓶颈,根据该异常原因确定对应的异常指标的信息为“cpu.usage reach 100%”,则在有向告警图中展示该异常指标的信息。当然,在其他实施例中,在展示异常指标的信息时可以采用不同的展示方式,如在用户点击图2d中的标示有“主机CPU瓶颈”的第一可视化对象后,该第一可视化对象对应的异常原因为主机CPU瓶颈,确定该异常原因所属的类别(如主机故障),确定与该类别对应的所有异常指标的信息,如为“cpu.usage reach 100%”和“diskstat.util reach 100%”,在有向告警图中展示所有异常指标的信息。
需要说明的是,本实施例中的有向告警图可以是故障异常传播知识图谱或者Petri net图(Petri网图)等任何能够直观展示异常原因和异常现象之间的因果关系、异常现象之间的传播关系的图即可。
通过这种有向告警图能够直观地展示数据库系统的异常,使用户能够快速定位导致异常的根本原因,进而快速排除异常。解决了现有技术中采用饼图展示调用的故障或者通过诊断项来把每一个数据库系统中模块的故障进行显示,只能显示异常现象的问题。克服了一个异常的根本异常原因往往会导致多个异常现象,异常现象又会导致一系列的子现象,而简单地显示异常现象不利于用户对异常进行处理的问题。
通过这种有向告警图与用户进行交互,可以让用户直观感受到异常的传播关系,更加了解数据库系统的工作原理,而且可以让数据库管理员这种非专业的用户也能看懂数据库系统的异常传播关系,从而更容易排除异常,以增加用户粘性,而且可以积累发生过的异常的有向告警图,以备后续进行大数据分析和故障分析使用。
下面结合一种具体使用场景对生成和展示有向告警图的实现过程进行说明如下:
过程A:在获取到运行指标中的异常指标后,对异常指标进行分析处理,获得故障分析结果数据。
故障分析结果数据中包括关联异常指标、以及关联异常指标之间的异常传播关系。
过程B:根据异常传播关系确定关联异常指标中的根异常指标,如“cpu.usagereach 100%”和“diskstat.util reach 100%”。除根异常指标之外的关联异常指标即为剩余异常指标,如“cpu.usage↑”、“diskstat.iops↑”和“tcp_rt↑”等。
过程B1:根据根异常指标所属的类别信息,确定对应的异常原因。
例如,“cpu.usage reach 100%”和“diskstat.util reach 100%”均属于主机资源层,故而对应的异常原因的大类为主机故障,“cpu.usage reach100%”对应的细类异常原因为主机CPU瓶颈,“diskstat.util reach 100%”对应的细类异常原因为主机IO瓶颈。
过程B2:根据剩余异常指标所属的类别信息,确定对应的异常现象。
例如,“cpu.usage↑”和“diskstat.iops↑”属于主机资源层,“cpu.usage↑”对应的异常现象为主机CPU资源抢占。“diskstat.iops↑”对应的异常现象为主机IO资源抢占。
“tcp_rt↑”属于tcp层,对应的异常现象为TCP响应时间上升。
过程B3:根据异常传播关系,可以确定异常现象之间的传播方向。
如异常现象传播方向为资源现象向TCP响应时间现象传播。
过程B4:根据异常原因、异常现象和异常现象之间的传播方向,生成有向告警图。
在有向告警图中按照候选异常原因所属大类分组展示各细类中的候选异常原因。其中,针对异常原因生成第一可视化对象,针对除异常原因之外的剩余原因生成第二可视化对象。
根据异常现象之间的传播方向分组展示候选异常现象。其中,针对异常现象生成第三可视化对象,针对除异常现象之外的剩余现象生成第四可视化对象,并通过箭头等有向标识指示异常原因和异常现象之间的因果关系和/或异常现象之间的传播方向。生成的有向告警图如图2d所示。
图2d展示了一种由于主机资源瓶颈导致的实例故障,导致实例业务流量下跌的有向告警图。其中,最左边为根因(root cause)如主机故障,初始根因(initial cause)对应如主机CPU瓶颈和主机IO瓶颈。右侧部分为依照传播方向依次展示的异常现象,如资源现象、会话现象、TCP响应时间现象等等。
过程C:接收用户对展示的有向告警图中的第一可视化对象或第三可视化对象的触发操作,并根据该触发操作展示关联异常指标的信息。
例如,用户点击图2d中与“主机CPU瓶颈”对应的第一可视化对象,根据被点击的第一可视化对象,展示“主机CPU瓶颈”所属大类(即主机故障)对应的关联异常指标,如“cpu.usage reach 100%”和“diskstat.util reach100%”等。
图2e中展示了一种第一可视化对象和第三可视化对象被触发后展示关联异常指标的界面示意图。
通过该分层、有向的有向告警图可以直观地与用户交互,展示数据库系统的异常传播信息和故障传播信息,清晰展示对数据库系统的异常指标进行根因分析的故障分析结果数据,可以理清楚不同数据库系统的节点之间的异常传播关系,而且可以基于知识图谱与多指标异常检测,挖掘出异常的传播规则,通过传播规则定位到异常根因,以方便快速排除异常和故障。
用户可以从有向告警图的最左侧找到异常的根因,通过根因可以发现多个初始根因以及产生的异常现象,每一个异常原因对应的第一可视化对象和异常现象对应的第三可视化对象均可以通过点击触发弹出相应的异常指标列表。
通过这种方式,可以较为明显地分清异常原因与异常现象,对不同类型的异常做到清晰的区分,解决现有技术中以列表方式展示异常指标不能体现出异常间的因果关系的问题。
此外,这种交互方式除了可以应用到数据库系统的异常展示中,还可以应用到机器学习的人工标注领域,通过此方法标注,有效地节省运维人员对异常的标注时间,相同时间可以积累更多的样本,提高模型训练效率。
通过本实施例,根据异常指标生成故障分析结果数据,之后根据故障分析结果数据生成有向的、能够指示异常原因和异常现象之间的因果关系的有向告警图,采用这种有向图的方式与用户进行交互,使得用户可以直观地确定异常原因,并方便、简明地查看该异常原因导致的各个异常现象,从而可以快速排除异常。通过这种有向告警图进行告警,使得与用户的交互更加直观、快速、简明,提升了交互效率。
本实施例的数据处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
实施例三
参照图3,示出了根据本发明实施例三的一种数据处理装置的结构框图。
本实施例的数据处理装置包括:获取模块302,用于获取根据数据库系统的异常指标生成的故障分析结果数据,所述故障分析结果中包括异常指标中存在关联关系的关联异常指标、以及所述关联异常指标之间的异常传播关系;生成模块304,用于根据所述关联异常指标、以及所述关联异常指标之间的异常传播关系,生成用于展示所述关联异常指标对应的异常原因和异常现象间因果关系的有向告警图。
可选地,所述生成模块304包括:第一确定模块3041,用于根据所述关联异常指标之间的异常传播关系,确定所述关联异常指标中的根异常指标和剩余异常指标;第二确定模块3042,用于根据所述根异常指标所属的类别信息确定所述根异常指标对应的异常原因,并根据所述剩余异常指标所属的类别信息和所述剩余异常指标之间的传播方向,确定所述剩余异常指标对应的异常现象以及异常现象之间的传播方向;第三确定模块3043,用于根据所述根异常指标对应的异常原因、所述剩余异常指标对应的异常现象以及异常现象之间的传播方向,生成用于指示异常原因和异常现象间因果关系的所述有向告警图。
可选地,所述有向告警图中包括与异常原因对应的第一可视化对象、与预设的候选原因中除所述异常原因外的剩余原因对应的第二可视化对象,所述第一可视化对象区别于所述第二可视化对象;和/或,所述有向告警图中还包括与异常现象对应的第三可视化对象、和与预设的候选现象中除所述异常现象外的剩余现象对应的第四可视化对象,所述第三可视化对象区别于所述第四可视化对象。
可选地,所述装置还包括:接收模块306,用于接收对展示的所述有向告警图中的第一可视化对象或第三可视化对象的触发操作;第二展示模块308,用于根据所述触发操作,展示与被触发的所述第一可视化对象指示的异常原因对应的异常指标的信息或展示与被触发的所述第三可视化对象指示的异常现象对应的异常指标的信息。
可选地,所述异常指标的信息包括下列至少之一:异常指标标识和用于表征异常指标异常波动方向的波动标识。
可选地,所述异常原因包括下列至少之一:实例异常负载、主机故障和外部操作故障。
可选地,所述实例异常负载包括下列至少之一:CPU密集型异常负载、IO密集型异常负载和故障结构化查询语句。
可选地,所述主机故障包括下列至少之一:主机CPU瓶颈、主机IO瓶颈、主机内存瓶颈、主机网络瓶颈、主机磁盘空间瓶颈和主机硬件故障。
可选地,所述外部操作故障包括下列至少之一:实例参数调整故障、实例主被切换故障、实例备份迁移故障和主机操作任务故障。
可选地,所述异常现象包括下列至少之一:实例CPU突增、实例IO突增、实例内存溢出、主机CPU资源抢占、主机IO资源抢占、主机内存资源抢占、主机网络资源抢占、主机空间异常变化、会话突增、TCP响应时间突增和业务流量下跌。
本实施例的数据处理装置用于实现前述多个方法实施例中相应的数据处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的数据处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例四
参照图4,示出了根据本发明实施例四的一种数据库的结构框图。
如图4所示,本实施例的数据库系统包括:处理组件402,用于获取根据数据库系统的异常指标生成的故障分析结果数据,所述故障分析结果中包括异常指标中存在关联关系的关联异常指标、以及所述关联异常指标之间的异常传播关系;交互显示界面404,用于展示有向告警图,所述告警图是根据所述关联异常指标、以及所述关联异常指标之间的异常传播关系生成的。
该数据库的处理组件402可以根据数据库的异常指标生成故障分析结果数据。交互显示界面404可以根据故障分析结果数据中的关联异常指标、以及所述关联异常指标之间的异常传播关系生成有向告警图,并展示该有向告警图,使用户能够根据该有向告警图中的方向直观地确定导致异常的原因、以及异常对应的现象,从而快速定位原因,以方便解决异常。
其中,为了更加清晰、直观地展示,所述交互显示界面中通过多级展示界面展示所述有向告警图,所述多级展示界面包括多个展示层,所述展示层用于展示有向告警图中对应层级的异常原因或者异常现象,所述异常原因和所述异常现象的层级根据所述异常传播关系确定。
例如,参照图2d,多级展示界面中的展示层按照层级由左到右依次排列,其中,左侧的前两个展示层用于展示异常原因,依次为用于展示根因(即根本原因)的第一展示层和用于展示初始根因的第二展示层。剩余的展示层用于展示异常现象,依照示例中的异常现象间的传播关系,依次为用于展示资源层异常现象的第三展示层、用于展示会话层异常现象的第四展示层、用于展示TCP层异常现象的第五展示层和用于展示过载现象的第六展示层。
这些展示层中的至少部分具有子展示层,例如,参照图2e,第二展示层具有子展示层,子展示层可以根据用户的操作隐藏或者显示。当用户点击第二展示层中展示的与异常原因对应的第一可视化对象(如主机CPU瓶颈)时,触发展示对应的子展示层(如图2e中展示的标签)。
这样实现了有向告警图的多级展示,不仅使用户可以直观地了解异常原因、异常现象等信息,而且可以根据需要查看异常原因和/或异常现象对应的异常指标的具体内容,使得功能更加丰富,可以满足用户的不同需求。
实施例五
参照图5,示出了根据本发明实施例五的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图5所示,该电子设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它电子设备如终端设备或服务器进行通信。
处理器502,用于执行程序510,具体可以执行上述数据处理方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:获取根据数据库系统的异常指标生成的故障分析结果数据,所述故障分析结果中包括异常指标中存在关联关系的关联异常指标、以及所述关联异常指标之间的异常传播关系;根据所述关联异常指标、以及所述关联异常指标之间的异常传播关系,生成用于展示所述关联异常指标对应的异常原因和异常现象间因果关系的有向告警图。
在一种可选的实施方式中,程序510还用于使得处理器502在根据所述关联异常指标、以及所述关联异常指标之间的异常传播关系,生成用于展示所述关联异常指标对应的异常原因和异常现象间因果关系的有向告警图时,根据所述关联异常指标之间的异常传播关系,确定所述关联异常指标中的根异常指标和剩余异常指标;根据所述根异常指标所属的类别信息确定所述根异常指标对应的异常原因,并根据所述剩余异常指标所属的类别信息和所述剩余异常指标之间的传播方向,确定所述剩余异常指标对应的异常现象以及异常现象之间的传播方向;根据所述根异常指标对应的异常原因、所述剩余异常指标对应的异常现象以及异常现象之间的传播方向,生成用于指示异常原因和异常现象间因果关系的所述有向告警图。
在一种可选的实施方式中,所述有向告警图中包括与异常原因对应的第一可视化对象、与预设的候选原因中除所述异常原因外的剩余原因对应的第二可视化对象,所述第一可视化对象区别于所述第二可视化对象;和/或,所述有向告警图中还包括与异常现象对应的第三可视化对象、和与预设的候选现象中除所述异常现象外的剩余现象对应的第四可视化对象,所述第三可视化对象区别于所述第四可视化对象。
在一种可选的实施方式中,程序510还用于使得处理器502接收对展示的所述有向告警图中的第一可视化对象或第三可视化对象的触发操作;根据所述触发操作,展示与被触发的所述第一可视化对象指示的异常原因对应的异常指标的信息或展示与被触发的所述第三可视化对象指示的异常现象对应的异常指标的信息。
在一种可选的实施方式中,所述异常指标的信息包括下列至少之一:异常指标标识和用于表征异常指标异常波动方向的波动标识。
在一种可选的实施方式中,所述异常原因包括下列至少之一:实例异常负载、主机故障和外部操作故障。
在一种可选的实施方式中,所述实例异常负载包括下列至少之一:CPU密集型异常负载、IO密集型异常负载和故障结构化查询语句。
在一种可选的实施方式中,所述主机故障包括下列至少之一:主机CPU瓶颈、主机IO瓶颈、主机内存瓶颈、主机网络瓶颈、主机磁盘空间瓶颈和主机硬件故障。
在一种可选的实施方式中,所述外部操作故障包括下列至少之一:实例参数调整故障、实例主被切换故障、实例备份迁移故障和主机操作任务故障。
在一种可选的实施方式中,所述异常现象包括下列至少之一:实例CPU突增、实例IO突增、实例内存溢出、主机CPU资源抢占、主机IO资源抢占、主机内存资源抢占、主机网络资源抢占、主机空间异常变化、会话突增、TCP响应时间突增和业务流量下跌。
程序510中各步骤的具体实现可以参见上述数据处理方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,根据异常指标生成故障分析结果数据,之后根据故障分析结果数据生成有向的、能够指示异常原因和异常现象之间的因果关系的有向告警图,采用这种有向图的方式与用户进行交互,使得用户可以直观地确定异常原因,并方便、简明地查看该异常原因导致的各个异常现象,从而可以快速排除异常。通过这种有向告警图进行告警,使得与用户的交互更加直观、快速、简明,提升了交互效率。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的数据处理方法。此外,当通用计算机访问用于实现在此示出的数据处理方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的数据处理方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。

Claims (15)

1.一种数据处理方法,包括:
获取根据数据库系统的异常指标生成的故障分析结果数据,所述故障分析结果中包括异常指标中存在关联关系的关联异常指标、以及所述关联异常指标之间的异常传播关系;
根据所述关联异常指标、以及所述关联异常指标之间的异常传播关系,生成用于展示所述关联异常指标对应的异常原因和异常现象间因果关系的有向告警图。
2.根据权利要求1所述的方法,其中,所述根据所述关联异常指标、以及所述关联异常指标之间的异常传播关系,生成用于展示所述关联异常指标对应的异常原因和异常现象间因果关系的有向告警图,包括:
根据所述关联异常指标之间的异常传播关系,确定所述关联异常指标中的根异常指标和剩余异常指标;
根据所述根异常指标所属的类别信息确定所述根异常指标对应的异常原因,并根据所述剩余异常指标所属的类别信息和所述剩余异常指标之间的传播方向,确定所述剩余异常指标对应的异常现象以及异常现象之间的传播方向;
根据所述根异常指标对应的异常原因、所述剩余异常指标对应的异常现象以及异常现象之间的传播方向,生成用于指示异常原因和异常现象间因果关系的所述有向告警图。
3.根据权利要求2所述的方法,其中,所述有向告警图中包括与异常原因对应的第一可视化对象、与预设的候选原因中除所述异常原因外的剩余原因对应的第二可视化对象,所述第一可视化对象区别于所述第二可视化对象;
和/或,
所述有向告警图中还包括与异常现象对应的第三可视化对象、和与预设的候选现象中除所述异常现象外的剩余现象对应的第四可视化对象,所述第三可视化对象区别于所述第四可视化对象。
4.根据权利要求3所述的方法,其中,所述方法还包括:
接收对展示的所述有向告警图中的第一可视化对象或第三可视化对象的触发操作;
根据所述触发操作,展示与被触发的所述第一可视化对象指示的异常原因对应的异常指标的信息或展示与被触发的所述第三可视化对象指示的异常现象对应的异常指标的信息。
5.根据权利要求4所述的方法,其中,所述异常指标的信息包括下列至少之一:异常指标标识和用于表征异常指标异常波动方向的波动标识。
6.根据权利要求1-5中任一项所述的方法,其中,所述异常原因包括下列至少之一:实例异常负载、主机故障和外部操作故障。
7.根据权利要求6所述的方法,其中,所述实例异常负载包括下列至少之一:CPU密集型异常负载、IO密集型异常负载和故障结构化查询语句。
8.根据权利要求6所述的方法,其中,所述主机故障包括下列至少之一:主机CPU瓶颈、主机IO瓶颈、主机内存瓶颈、主机网络瓶颈、主机磁盘空间瓶颈和主机硬件故障。
9.根据权利要求6所述的方法,其中,所述外部操作故障包括下列至少之一:实例参数调整故障、实例主被切换故障、实例备份迁移故障和主机操作任务故障。
10.根据权利要求1所述的方法,其中,所述异常现象包括下列至少之一:实例CPU突增、实例IO突增、实例内存溢出、主机CPU资源抢占、主机IO资源抢占、主机内存资源抢占、主机网络资源抢占、主机空间异常变化、会话突增、TCP响应时间突增和业务流量下跌。
11.一种数据处理装置,包括:
获取模块,用于获取根据数据库系统的异常指标生成的故障分析结果数据,所述故障分析结果中包括异常指标中存在关联关系的关联异常指标、以及所述关联异常指标之间的异常传播关系;
生成模块,用于根据所述关联异常指标、以及所述关联异常指标之间的异常传播关系,生成用于展示所述关联异常指标对应的异常原因和异常现象间因果关系的有向告警图。
12.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-10中任一项所述的数据处理方法对应的操作。
13.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-10中任一所述的数据处理方法。
14.一种数据库系统,包括:
处理组件,用于获取根据数据库系统的异常指标生成的故障分析结果数据,所述故障分析结果中包括异常指标中存在关联关系的关联异常指标、以及所述关联异常指标之间的异常传播关系;
交互显示界面,用于展示有向告警图,所述告警图是根据所述关联异常指标、以及所述关联异常指标之间的异常传播关系生成的。
15.根据权利要求14所述的数据库系统,其中,所述交互显示界面中通过多级展示界面展示所述有向告警图,所述多级展示界面包括多个展示层,所述展示层用于展示有向告警图中对应层级的异常原因或者异常现象,所述异常原因和所述异常现象的层级根据所述异常传播关系确定。
CN202010077017.2A 2020-01-23 2020-01-23 数据处理方法、装置、数据库系统、电子设备及存储介质 Active CN111309567B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010077017.2A CN111309567B (zh) 2020-01-23 2020-01-23 数据处理方法、装置、数据库系统、电子设备及存储介质
PCT/CN2021/072596 WO2021147832A1 (zh) 2020-01-23 2021-01-19 数据处理方法、装置、数据库系统、电子设备及存储介质
US17/861,134 US12001275B2 (en) 2020-01-23 2022-07-08 Data processing method, apparatus, database system, electronic device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010077017.2A CN111309567B (zh) 2020-01-23 2020-01-23 数据处理方法、装置、数据库系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111309567A true CN111309567A (zh) 2020-06-19
CN111309567B CN111309567B (zh) 2024-03-29

Family

ID=71156379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010077017.2A Active CN111309567B (zh) 2020-01-23 2020-01-23 数据处理方法、装置、数据库系统、电子设备及存储介质

Country Status (3)

Country Link
US (1) US12001275B2 (zh)
CN (1) CN111309567B (zh)
WO (1) WO2021147832A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112526905A (zh) * 2020-11-27 2021-03-19 杭州萤石软件有限公司 一种针对指标异常的处理方法及系统
CN112860508A (zh) * 2021-01-13 2021-05-28 支付宝(杭州)信息技术有限公司 一种基于知识图谱的异常定位方法、装置以及设备
WO2021147832A1 (zh) * 2020-01-23 2021-07-29 阿里巴巴集团控股有限公司 数据处理方法、装置、数据库系统、电子设备及存储介质
CN113505044A (zh) * 2021-09-09 2021-10-15 格创东智(深圳)科技有限公司 数据库告警方法、装置、设备和存储介质
CN113839804A (zh) * 2020-06-24 2021-12-24 华为技术有限公司 一种网络故障的确定方法及网络设备
CN114721912A (zh) * 2021-01-04 2022-07-08 腾讯科技(深圳)有限公司 一种数据分析方法、装置、设备及介质
CN114867052A (zh) * 2022-06-10 2022-08-05 中国电信股份有限公司 无线网络故障诊断方法、装置、电子设备和介质
CN115118580A (zh) * 2022-05-20 2022-09-27 阿里巴巴(中国)有限公司 告警分析方法以及装置
CN115514627A (zh) * 2022-09-21 2022-12-23 深信服科技股份有限公司 一种故障根因定位方法、装置、电子设备及可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310566B (zh) * 2023-03-23 2023-09-15 华谱科仪(北京)科技有限公司 色谱数据图处理方法、计算机设备和计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000214924A (ja) * 1999-01-27 2000-08-04 Toshiba Corp プラント異常監視装置および異常発生箇所同定方法
CN102713862A (zh) * 2010-02-15 2012-10-03 日本电气株式会社 故障原因提取装置、故障原因提取方法和程序记录介质
US20140146662A1 (en) * 2012-11-28 2014-05-29 Hitachi, Ltd. Management system and management method
CN108009040A (zh) * 2017-12-12 2018-05-08 杭州时趣信息技术有限公司 一种确定故障根因的方法、系统和计算机可读存储介质
CN109034521A (zh) * 2018-06-07 2018-12-18 国电南瑞科技股份有限公司 一种电网调度控制系统的智能运维架构设计方法
CN109450677A (zh) * 2018-10-29 2019-03-08 中国联合网络通信集团有限公司 一种根源故障的定位方法和装置
CN109634808A (zh) * 2018-12-05 2019-04-16 中信百信银行股份有限公司 一种基于关联分析的链式监控事件根因分析方法
CN109634813A (zh) * 2018-12-11 2019-04-16 平安科技(深圳)有限公司 电子装置、云平台异常确认方法及存储介质
CN110601898A (zh) * 2019-09-20 2019-12-20 平安科技(深圳)有限公司 异常预警方法、装置、服务器及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7251584B1 (en) * 2006-03-14 2007-07-31 International Business Machines Corporation Incremental detection and visualization of problem patterns and symptoms based monitored events
US20140279718A1 (en) * 2013-03-12 2014-09-18 Xerox Business Services, Llc Machine Assisted Troubleshooting of a Customer Support Issue
US9558056B2 (en) * 2013-07-28 2017-01-31 OpsClarity Inc. Organizing network performance metrics into historical anomaly dependency data
CN104794136A (zh) * 2014-01-22 2015-07-22 华为技术有限公司 故障分析方法和装置
US20150281011A1 (en) * 2014-04-01 2015-10-01 Ca, Inc. Graph database with links to underlying data
US10402255B1 (en) * 2016-01-22 2019-09-03 Veritas Technologies Llc Algorithm for aggregating relevant log statements from distributed components, which appropriately describes an error condition
US10616043B2 (en) * 2017-11-27 2020-04-07 Google Llc Real-time probabilistic root cause correlation of network failures
US10977154B2 (en) * 2018-08-03 2021-04-13 Dynatrace Llc Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
US11301314B2 (en) * 2019-01-29 2022-04-12 Smartqed, Inc. Methods and systems for collaborative evidence-based problem investigation and resolution
CN109933452B (zh) * 2019-03-22 2020-06-19 中国科学院软件研究所 一种面向异常传播的微服务智能监测方法
CN111309567B (zh) * 2020-01-23 2024-03-29 阿里巴巴集团控股有限公司 数据处理方法、装置、数据库系统、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000214924A (ja) * 1999-01-27 2000-08-04 Toshiba Corp プラント異常監視装置および異常発生箇所同定方法
CN102713862A (zh) * 2010-02-15 2012-10-03 日本电气株式会社 故障原因提取装置、故障原因提取方法和程序记录介质
US20140146662A1 (en) * 2012-11-28 2014-05-29 Hitachi, Ltd. Management system and management method
CN108009040A (zh) * 2017-12-12 2018-05-08 杭州时趣信息技术有限公司 一种确定故障根因的方法、系统和计算机可读存储介质
CN109034521A (zh) * 2018-06-07 2018-12-18 国电南瑞科技股份有限公司 一种电网调度控制系统的智能运维架构设计方法
CN109450677A (zh) * 2018-10-29 2019-03-08 中国联合网络通信集团有限公司 一种根源故障的定位方法和装置
CN109634808A (zh) * 2018-12-05 2019-04-16 中信百信银行股份有限公司 一种基于关联分析的链式监控事件根因分析方法
CN109634813A (zh) * 2018-12-11 2019-04-16 平安科技(深圳)有限公司 电子装置、云平台异常确认方法及存储介质
CN110601898A (zh) * 2019-09-20 2019-12-20 平安科技(深圳)有限公司 异常预警方法、装置、服务器及存储介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021147832A1 (zh) * 2020-01-23 2021-07-29 阿里巴巴集团控股有限公司 数据处理方法、装置、数据库系统、电子设备及存储介质
US12001275B2 (en) 2020-01-23 2024-06-04 Alibaba Group Holding Limited Data processing method, apparatus, database system, electronic device, and storage medium
CN113839804A (zh) * 2020-06-24 2021-12-24 华为技术有限公司 一种网络故障的确定方法及网络设备
CN113839804B (zh) * 2020-06-24 2023-03-10 华为技术有限公司 一种网络故障的确定方法及网络设备
CN112526905A (zh) * 2020-11-27 2021-03-19 杭州萤石软件有限公司 一种针对指标异常的处理方法及系统
CN112526905B (zh) * 2020-11-27 2022-09-27 杭州萤石软件有限公司 一种针对指标异常的处理方法及系统
CN114721912A (zh) * 2021-01-04 2022-07-08 腾讯科技(深圳)有限公司 一种数据分析方法、装置、设备及介质
CN112860508A (zh) * 2021-01-13 2021-05-28 支付宝(杭州)信息技术有限公司 一种基于知识图谱的异常定位方法、装置以及设备
CN112860508B (zh) * 2021-01-13 2023-02-28 支付宝(杭州)信息技术有限公司 一种基于知识图谱的异常定位方法、装置以及设备
CN113505044A (zh) * 2021-09-09 2021-10-15 格创东智(深圳)科技有限公司 数据库告警方法、装置、设备和存储介质
CN115118580B (zh) * 2022-05-20 2023-10-31 阿里巴巴(中国)有限公司 告警分析方法以及装置
CN115118580A (zh) * 2022-05-20 2022-09-27 阿里巴巴(中国)有限公司 告警分析方法以及装置
CN114867052A (zh) * 2022-06-10 2022-08-05 中国电信股份有限公司 无线网络故障诊断方法、装置、电子设备和介质
CN114867052B (zh) * 2022-06-10 2023-11-07 中国电信股份有限公司 无线网络故障诊断方法、装置、电子设备和介质
CN115514627A (zh) * 2022-09-21 2022-12-23 深信服科技股份有限公司 一种故障根因定位方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
US12001275B2 (en) 2024-06-04
US20220342741A1 (en) 2022-10-27
WO2021147832A1 (zh) 2021-07-29
CN111309567B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN111309567A (zh) 数据处理方法、装置、数据库系统、电子设备及存储介质
US10303533B1 (en) Real-time log analysis service for integrating external event data with log data for use in root cause analysis
CN110351150B (zh) 故障根源确定方法及装置、电子设备和可读存储介质
US11457029B2 (en) Log analysis based on user activity volume
US7676706B2 (en) Baselining backend component response time to determine application performance
CN112965874B (zh) 一种可配置的监控告警方法及系统
Jiang et al. Efficient fault detection and diagnosis in complex software systems with information-theoretic monitoring
US20080126413A1 (en) Baselining backend component error rate to determine application performance
US11044144B2 (en) Self-monitoring
US8095514B2 (en) Treemap visualizations of database time
CN112631887A (zh) 异常检测方法、装置、电子设备和计算机可读存储介质
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN113760641A (zh) 业务监控方法、装置、计算机系统和计算机可读存储介质
US11438239B2 (en) Tail-based span data sampling
CN109800124B (zh) Cpu使用率监控方法、装置、电子设备及存储介质
CN114064402A (zh) 服务器系统监控方法
US10706108B2 (en) Field name recommendation
CN113420935A (zh) 故障定位方法、装置、设备和介质
CN115037597A (zh) 一种故障检测方法及设备
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN112131090B (zh) 业务系统性能监控方法及装置、设备及介质
CN114780378A (zh) 基于业务接口的系统稳定性检测溯源方法及相关设备
EP3832985A1 (en) Method and apparatus for processing local hot spot, electronic device and storage medium
CN113868094A (zh) 一种大数据异常信息监控系统
Makanju et al. System state discovery via information content clustering of system logs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant